ae A 国际 信息 工程 先进 技术 译 从 


-一 (GRC) CRC Press 


社交 大 数据 挖掘 


Social Big Data Mining 


[日 | 石川 博 (Hiroshi Ishikawa) 编著 
BAR 陈 晓 坤 和 湘 姜 斌 等 译 


机 械 工 业 出 版 社 


CHINA MACHINE PRESS 


as 


寺 征 假设 在 社交 大 数据 时 
代 中 有 具有 越 来 越 重 要 的 作用 ， 
本 书 将 讲解 社交 大 数据 的 建 
模 、 数 据 挖 握 和 多 元 分 析 等 相 
关 技 术 。 本 书 试图 从 学 术 角 度 
介绍 社交 大 数据 从 基础 概念 到 
应 用 的 总 体 情况 ， 因 此 可 以 说 
本 书 是 独到 无 至 的 < 
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图 2.3 ”物理 真实 世界 数据 和 社交 数据 的 综合 分 析 
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图 2.4 ”社交 大 数据 的 参考 架构 


国际 信息 工程 先进 技术 译 从 


和 任 交 大 数据 挖掘 


[日 | 石川 博 (Hiroshi Ishikawa) ”编著 
BBR 陈 晓 坤 “和 湘 ， 姜 浅 ”等 译 


o 


机 械 工 业 出 版 社 


本 书 紧 紧 围绕 社交 媒体 中 的 大 数据 问题 ， 系 统 介 绍 了 社交 大 数据 的 基 
本 概念 以 及 相关 的 大 数据 处 理 技术 ,重点 介绍 了 网 页 和 媒体 的 大 数据 挖 
掘 。 全 书 共 分 为 14 章 ， 总 体 上 可 以 分 为 三 部 分 : 第 一 部 分 包括 第 1 章 和 
第 2 章 ， 介 绍 了 社交 大 数据 的 基本 概念 和 内 涵 ， 明 晰 了 社交 大 数据 与 一 般 
大 数据 的 区 别 ; 第 二 部 分 为 第 3 章 至 第 9 章 ， 介 绍 了 大 数据 处 理 中 涉及 的 
基本 概念 和 技术 方法 ， 包 括 假 设 的 定义 、 通 过 数据 挖掘 提出 假设 的 方法 ， 
以 及 假设 验证 的 分 析 方 法 ; 第 三 部 分 为 第 10 章 至 第 14 章 ， 详 细 介绍 了 社 
交大 数据 中 的 网 页 和 媒体 数据 挖掘 技术 、 自 然 语 言 处 理 技术 ， 以 及 社交 大 
数据 的 应 用 。 本 书 体系 结构 完整 ， 内 容 关 注 于 具有 鲜明 特色 的 社交 媒体 大 
数据 ， 行 文通 俗 易 懂 ， 同 时 兼 具 较 好 的 理论 参考 价值 、 实 用 性 和 指导 性 。 

本 书 可 为 具有 一 定 相关 专业 基础 、 对 大 数据 感 兴趣 的 师 生 、 工 程 师 及 
其 他 专业 人 士 提供 参考 。 


译 者 À 


当前 ， 云 计算 和 移动 互联 网 正在 飞速 发 展 ， 大 数据 应 用 随 之 开始 广泛 应 用 于 各 个 行 
业 。 了 解 大 数据 ， 学 习 大 数据 理论 及 其 应 用 几乎 成 为 新 时 期 信息 技术 行业 从 业 人 员 的 一 项 
必 备 基础 知识 。 本 着 为 具有 一 定 相关 专业 基础 的 大 数据 爱好 者 〈 如 学 生 和 工程 师 等 ) 提 
供 入 门 级 参考 书 的 目的 ， 我 们 在 调研 最 新 的 相关 外 文 出 版 书目 的 基础 上 ， 选 择 并 翻译 了 本 
书 。 作 为 当前 最 具 热 度 的 主题 之 一 ， 大 数据 有 关 的 书目 无 论 是 在 种 类 上 还 是 在 数量 上 都 很 
多 ， 在 众多 书目 中 这 本 书 之 所 以 能 够 打动 我 们 ， 主 要 是 考虑 到 它 的 以 下 三 个 特点 : 专注 于 
社交 大 数据 领域 ;内容 深入 浅 出 ;理论 讲述 平实 而 不 失 指导 性 。 

首先 ， 该 书 没有 泛泛 而 谈 大 数据 ， 而 是 选择 了 社交 网 络 中 产生 的 大 数据 ， 以 这 一 特定 
的 行业 大 数据 为 对 象 介绍 相关 的 基础 概念 和 应 用 。 市 面 上 不 乏 很 多 借 大 数据 热度 、 炒 概念 
的 出 版 物 ， 然 而 ， 真 正 能 让 读者 “ 想 得 清楚 ， 摸 得 到 的 ”的 大 数据 还 是 需要 落地 ， 需 要 结 
合 行业 应 用 来 讲 。 本 书 中 社交 网 络 就 是 我 们 接触 到 的 浏览 网 页 、 网 上 购物 和 刷 微 信 朋 友 圈 
这 些 再 熟悉 不 过 的 日 常 行为 。 以 这 些 主 题 为 切入 点 ， 读 者 理解 起 来 就 容易 多 了 。 随 着 人 们 
不 断 加 深 对 世界 的 认识 和 持续 参加 各 种 社交 活动 ， 数 据 规模 将 加 速 膨胀 ， 超 乎 想象 。 数 据 
采集 能 力 上 去 之 后 ， 势 必要 求 数据 挖掘 能 力也 能 跟 得 上 。 由 此 不 难 推断 出 数据 挖掘 技术 在 
社交 处 理 、 决 策 等 方面 将 起 到 不 可 蔡 代 的 作用 。 本 书 讲解 的 正 是 大 数据 时 代 的 核心 技 
能 一 一 数据 挖掘 理论 ， 而 且 有 大 量 的 真实 应 用 案例 。 

其 次 ， 该 书 内 容 深入 浅 出 ， 能 够 提供 较 好 的 阅读 体验 。 本 书 的 定位 是 入 门 级 读物 ， 而 
不 是 专业 教材 。 因 此 ， 我 们 可 以 发 现 ， 作 者 没有 陷入 严谨 的 概念 定义 和 定理 证 明 中 ， 更 多 
的 则 是 结合 实例 ， 较 为 简洁 明了 地 将 概念 和 应 用 采用 一 种 由 浅 入 深 、 分 门 别 类 的 方式 呈现 
出 来 。 例 如 ， 在 介绍 网 页 分 类 中 的 支持 向 量 机 (SVM) 算法 时 ， 作 者 并 没有 完全 按照 正式 
的 定义 介绍 ， 而 是 用 几 段 简短 的 文字 、 三 个 非常 直观 的 公式 和 一 张 图 例 简 要 说 明 算 法 思 
想 。 也 正 因为 如 此 ， 本 书 口语 化 的 表达 较 多 ， 力 求 使 行文 更 加 流畅 。 

最 后 ， 尽 管 本 书 的 文字 表达 比较 平实 ， 但 也 不 失 理论 参考 价值 ， 特 别 是 对 于 那些 想 进 
一 步 钻研 的 读者 来 说 ， 具 有 较 高 的 指导 意义 。 这 一 点 突出 体现 在 ， 本 书 虽然 没有 过 于 严谨 
的 学 术 表 述 ， 但 是 在 介绍 重要 的 算法 时 依然 采用 类 似 科技 文献 的 方式 将 引文 标 出 并 详细 说 
明 。 这 些 引 文 对 于 需要 深入 了 解 算法 的 应 用 或 者 是 想 研究 大 数据 挖掘 理论 的 读者 来 说 帮助 
很 大 ， 他 们 可 以 以 此 为 切入 点 ， 较 快 地 梳理 研究 脉络 ， 跟 踪 最 新 科研 进展 。 从 这 一 角度 来 
看 ， 本 书 可 以 认为 是 科普 读物 与 专业 学 术 著 作 间 的 桥梁 ， 既 能 满足 一 般 的 科普 要 求 ， 又 能 
方便 延伸 拓展 ， 为 进行 学 术 研究 提供 很 好 的 参考 和 桥接 作用 。 

为 了 更 好 地 翻译 本 书 ， 我 们 组 建 了 较 强 的 翻译 团队 ， 既 有 从 事 数 据 挖掘 方面 研究 的 教 
授 ， 也 有 从 事 社 交 媒 体 的 工作 者 ， 还 有 在 美国 做 过 访问 学 者 、 研 究 机 器 学 习 的 达 人 。 男 
外 ， 我 们 还 特意 挑选 了 几 名 优秀 的 在 读 博士 生 和 研究 生 参 与 了 此 项 工作 。 然 而 ， 当 开始 本 
书 的 翻译 工作 之 后 ， 我 们 仍 深 感 翻译 工作 是 一 项 系统 性 工程 ， 面 临 诸 多 挑战 。 对 于 本 书 来 
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说 ,最 大 的 挑战 是 如 何在 忠实 于 作者 思想 的 前 提 下 ， 把 握 好 口语 化 与 精准 性 表达 间 的 折 
中 。 本 书 的 特点 之 一 就 是 采用 了 大 量 自然 、 口 语 化 的 表达 ， 这 种 方式 有 助 于 快速 直观 地 理 
解 概念 。 另 一 方面 ， 在 叙述 的 过 程 中 又 会 不 可 避免 地 涉及 一 些 学 术 名 词 ， 清 楚 而 准确 地 解 
释 这 些 名 词 和 理 外 需要 相对 元 长 、 严 谨 的 表达 。 为 此 ， 在 翻译 的 过 程 中 ， 我 们 在 处 理 很 多 
口语 化 词句 时 并 不 是 完全 直译 ， 而 是 根据 上 下 文 信息 反复 其 酌 : 在 行文 衔接 和 背景 说 明 时 
多 用 作者 的 口语 化 表达 ， 而 在 重点 介绍 概念 和 理论 时 则 没有 直译 口语 化 表达 ， 尽 量 不 打 断 
作者 的 思路 。 好 在 热爱 和 专注 让 我 们 不 断 前 进 ， 克 服 各 种 困难 ， 完 成 了 翻译 工作 。 

本 书 主要 由 郎 为 民 、 陈 晓 坤 、 和 湘 、 姜 研 、 吴 文 辉 等 翻译 ， 国 防 科技 大 学 信息 通信 学 
BERHAD, KI Kag Ea, HE MES, BRAE, BE, FAR, RA 
胡佳 参与 了 本 书 部 分 章节 的 翻译 工作 。 宋 抢 龙 、 高 泳 洪 、 郭 马 坤 、 余 奇 、 付 国宾 、 徐 坤 、 
Em, BANAR ABA SEE AT SUT; 赵 弘 、 朱 春 祥 、 李 晓 、 戴 昌 裕 、 朱 义勇 对 本 书 
的 初稿 进行 了 审 校 ， 并 更 正 了 不 少 错误 ， 在 此 一 并 向 他 们 表示 惠 心 的 感谢 。 同 时 ， 本 书 是 

译 者 在 尽量 忠实 于 原 书 的 基础 上 翻译 而 成 的 ， 书 中 的 意 见 和 观感 并 不 代表 译 者 本 人 及 所 在 
单位 的 意 见 和 观点 。 本 书 参 考 文献 中 列 出 的 部 分 网 址 有 可 能 因为 网 站 更 新 或 者 其 他 原因 而 
无 法 打开 ， 冤 请 读者 理解 。 

限于 水 平 有 限 ， 时 间 仓 保 ， 且 大 数据 挖掘 本 身 就 处 于 快速 发 展 的 进程 中 ， 书 中 难免 有 
不 当 和 下 e 漏 之 处 ， 诚 请 各 位 专家 和 读者 批评 指正 。 
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当今 时 代 ， 在 科学 界 、 互 联网 以 及 物理 系统 中 不 断 产生 大 量 的 数据 ， 这 些 数据 统称 为 
数据 洪流 。 根 据 IDC (互联 网 数据 中 心 ) 的 研究 ， 每 年 全 世界 产生 和 复制 的 数据 估计 有 
161EB。 仅 2011 年 产生 的 数据 总 量 就 超过 了 该 年 度 可 用 存储 介质 的 存储 容量 的 10 倍 或 
更 多 。 

科学 和 工程 领域 的 专家 通过 观察 和 分 析 目 标 现 象 会 产生 大 量 的 数据 ， 甚 至 普通 人 通过 
互联 网 上 的 各 种 社交 媒体 也 会 自发 发 布 大 量 的 数据 。 此 外 ， 在 真实 世界 中 ， 人 们 通过 物理 
系统 检测 到 的 各 种 动作 会 无 意识 地 产生 数据 。 这 些 数据 通常 被 认为 能 够 产生 有 价值 的 
信息 。 

在 上 述 IDC 的 研究 报告 中 ， 科 学 界 、 互 联网 和 物理 系统 中 产生 的 数据 统称 为 大 数据 。 
大 数据 的 特点 可 以 概括 如 下 。 

数量 (Volume) K: 正如 它 的 名 字 所 示 ， 大 数据 的 数量 是 非常 大 的 。 

种 类 (Variety) 多 : 数据 的 种 类 可 以 扩展 到 非 结构 化 文本 、 半 结构 化 数据 ， 比 如 网 络 
中 的 XML、 图 表 等 。 

速度 (Velocity) W: 如 同 推 特 (Twitter) 和 传感器 数据 流 的 情况 一 样 ， 数 据 生成 的 
速度 非常 快 。 

因此 ， 大 数据 的 特征 通常 用 V 来 表示 ， 即 数量 、 种 类 和 速度 这 三 个 单词 的 首 字母 。 
人 们 期 望 大 数据 能 够 有 助 于 获取 科学 知识 ， 而 且 企 业 也 能 从 中 获得 价值 。 

“种 类 多 ”意味 着 大 数据 出 现在 各 种 各 样 的 应 用 中 。 大 数据 本 质 上 包含 “模糊 性 ” 
(vagueness) ， 比 如 它 的 不 一 致 性 和 缺失 等 。 为 了 获得 有 价值 的 分 析 结 果 ， 就 必须 解决 模糊 
性 的 问题 。 此 外 ,最 近 在 日 本 完成 的 一 项 调查 显示 ,很 多 用 户 对 “模糊 性 ”的 担忧 如 同 
对 大 数据 应 用 安全 和 机 制 的 担心 一 样 。 解 决 这 些 问题 是 大 数据 应 用 能 否 成 功 推广 的 一 个 关 
键 。 从 这 个 意义 上 讲 ， 应 该 用 Vt 而 不 是 V 来 描述 大 数据 。 

数据 分 析 师 也 被 称 作 数 据 科 学 家 。 在 大 数据 时 代 ， 需 要 越 来 越 多 的 数据 科学 家 ， 他 们 
必 备 的 技能 包括 以 下 方面 : 

能 够 构建 一 个 假设 

© 能 够 验证 假设 

掘 社交 数据 以 及 通用 Web 数据 的 能 

够 处 理 自然 语言 信息 

够 恰当 地 将 数据 和 知识 表示 出 来 

© 能 够 恰当 地 将 数据 和 结果 进行 可 视 化 

使 用 地 理 信 息 系 统 (Geographical Information Systems, GIS) 的 能 
了 解 各 种 各 样 的 应 用 程序 

了 解 可 扩展 性 的 知识 
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© 了 解 和 遵守 与 隐私 和 安全 有 关 的 道德 和 法 律 
能 够 使 用 安全 系统 

。 能 够 与 客户 交流 

根据 上 述 标准 ， 本 书 的 内 容 不 一 定 很 全 面 。 然 而 ， 从 社交 大 数据 的 角度 来 看 ， 本 书 主 
要 关注 的 是 下 述 基 本 概念 和 相关 技术 : 

© 大 数据 和 社交 数据 

。 假设 的 概念 

o 用 于 做 出 假设 的 数据 挖掘 

。 用 于 验证 假设 的 多 变量 分 析 

© Web 挖掘 和 媒体 挖掘 

。 自然 语言 处 理 

© 社交 大 数据 应 用 

e 可 扩展 性 

简 而 言 之 ， 本 书 介绍 了 特征 假设 ， 它 在 社交 大 数据 时 代 中 具有 越 来 越 重要 的 地 位 ， 此 
外 ， 还 介绍 了 分 析 技 术 ， 如 社交 大 数据 的 建 模 、 数 据 挖掘 和 多 变量 分 析 。 本 书 与 其 他 同类 
书 的 不 同 之 处 在 于 ， 本 书 从 学 术 基 础 出 发 ， 目 的 是 描绘 出 社交 大 数据 从 基本 概念 到 应 用 的 
ER 

希望 本 书 能 够 为 那些 对 社交 大 数据 感 兴趣 的 读者 所 广泛 使 用 ， 包 括 学 生 、 工 程 师 、 科 
学 家 和 其 他 专业 人 士 。 此 外 ， 我 要 深 深 感谢 家 人 的 大 力 支 持 。 


石川 博 (Hiroshi Ishikawa) 
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第 1 章 社交 媒体 


社交 媒体 是 社交 大 数据 应 用 不 可 或 缺 的 要 素 。 在 本 华中 ,我 们 首先 将 社交 媒体 分 为 几 
个 类 别 ， 并 解释 每 个 类 别 的 特征 ， 以 便 更 好 地 了 解 什么 是 社交 媒体 。 然 后 ， 我 们 将 从 社交 
大 数据 应 用 所 需要 分 析 的 角度 来 选择 重要 的 媒体 类 别 ， 解 决 每 个 类 别 中 包括 的 代表 性 社交 
媒体 ， 并 描述 该 社交 媒体 的 特征 ， 关 注 社 交 媒 体 的 统计 、 结 构 和 互动 ， 以 及 它 与 其 他 类 似 
的 社交 媒体 的 关系 。 


1.1 什么 是 社交 媒体 


通常 ， 社 交 媒体 站 点 包括 作为 其 平台 的 信息 系统 及 其 在 网 络 上 的 用 户 。 该 系统 使 用 户 
能 够 与 其 进行 直接 交互 ， 而 用 户 则 可 以 被 系统 以 及 其 他 用 户 识别 。 两 个 或 多 个 用 户 构 成 明 
确 或 隐 含 的 社区 ， 即 社交 网 络 。 社 交 媒 体 中 的 用 户 在 社交 网 络 分 析 的 背景 下 通常 被 称 为 行 
动 者 。 通 过 参与 社交 网 络 以 及 与 系统 直接 交互 ， 用户 可 以 享受 由 社交 媒体 站 点 提供 的 
服务 。 

更 具体 地 说 ， 社 交 媒 体 可 以 根据 服务 内 容 分 为 以 下 类 别 。 

。 博客 : 此 类 别 中 的 服务 使 用 户 能 够 以 日 记 样式 在 文本 中 发 布 关于 某 些 主题 (包括 
个 人 或 社交 活动 ) 的 解释 、 情 绪 、 评 价 、 行 动 和 想法 。 

© 微 博 ; 用 户 在 微 博 中 通常 以 较 短 的 文本 描述 某 个 主题 。 例 如 推 文 ， 即 推 特 的 文章 ， 
最 多 包含 140 个 字符 。 

© 社交 网 络 服务 (Social Network Service, SNS): 此 类 服务 支持 在 用 户 之 间 创 建 社交 
网 络 。 

。 共享 服务 : 此 类 别 中 的 服务 允许 用 户 共 享 电影 、 音 频 、 照 片 和 书签 。 

e 视频 通信 : 利用 此 类 别 的 服务 ， 用 户 可 以 举行 会 议 ， 并 与 其 他 用 户 使 用 实时 视频 
进行 聊天 。 

© 社交 搜索 : 利用 此 类 别 的 服务 ， 用 户 能 够 在 随后 的 搜索 中 反映 当前 搜索 结果 的 喜 
好 和 意见 。 其 他 服务 还 包括 ， 不 仅 允 许 专家 ， 也 人 允许 用 户 直 接 回复 查询 。 
e 社交 新 闻 : 通过 此 类 别 的 服务 ， 用 户 可 以 将 新 闻 作 为 主要 来 源 ， 也 可 以 重新 发 布 
和 评估 已 发 布 的 喜爱 的 新 闻 项 目 。 

。 社交 游戏 : 此 类 别 中 的 服务 使 用 户 能 够 与 由 社交 网 络 连接 的 其 他 用 户 玩 游戏 。 

e 人 力 外 包 : 通过 这 一 类 的 服务 ， 用 户 可 以 将 部 分 或 全 部 工作 外 包 给 能 够 胜任 该 工 
作 的 外 部 用 户 。 

e 协作 : 此 类 服务 支持 用 户 之 间 的 协同 工作 ， 并 使 用 户 能 够 发 布 协同 工作 的 结果 。 
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1.2 代表 性 社交 媒体 


考虑 到 用 户 数量 和 当前 情况 下 媒体 的 社会 影响 ， 微 博 、 社 交 网 络 服务 、 视 频 分 享 、 照 
片 分 享 ， 以 及 协作 都 是 社交 大 数据 应 用 的 重要 类 别 ， 对 社交 媒体 数据 分 析 和 结果 的 利用 也 
是 大 数据 的 来 源 之 一 。 我 们 将 解释 每 个 类 别 中 具有 代表 性 社交 媒体 的 配置 文件 ( 即 特 
征 )， 以 及 通用 的 网 页 文件 ,重点 关注 以 下 几 方 面 ， 以 便 进行 有 效 的 分 析 。 

。 类 别 和 基础 

。 数量 

。 数据 结构 
主要 的 交互 
。 与 类 似 媒体 的 比较 
应 用 程序 界面 


1.2.1 Twitter 


(1) 类 别 和 基础 
Twitter 是 由 杰克 … 多 尔 西 (Jack Dorsey) 在 2005 年 创立 的 微 博 服务 平台 之 一 ， 如 图 
1.1 所 示 [Twitter 2014, Twitter - Wikipedia 2014 ] 。 


1.1 Twitter 


Twitter 起 源 于 媒体 发 展 的 思想 ， 这 些 媒 体 是 高 度 活跃 的 ， 适 合 朋友 之 间 的 沟通 。 据 说 
它 引 起 了 广泛 注意 ， 部 分 原因 是 它 的 用 户 增加 地 如 此 快 。 例 如 ,在 2011 年 ， 当 宫 崎 骏 的 
动画 电影 《天 空 之 城 》 在 日 本 作为 电视 节目 播放 时 ， 在 一 秒 钟 内 就 有 25088 条 推 文 ， 使 得 
它 成 为 人 们 关注 的 中 心 。 

(2) 数量 

e 活跃 用 户 : 200M (M: 百 万 ) 

。 每 天 搜索 次 数 : 1.6 B (B: 十 亿 ) 


© 每 天 推 文 数 : 400 M 
(3) 数据 结构 
(与 用 户 相关 的 ) 
。 账号 
。 配置 文件 
(与 内 容 相关 的 ) 
© HER 
(与 关系 相关 的 ) 
。 到 网 站 、 视 频 和 照片 的 链接 
。 用 户 之 间 的 关注 者 - 被 关注 者 关系 
。 搜索 记忆 
© 用 户 列 表 
© 推 特 书签 
(4) 主要 的 交互 
。 创建 和 删除 一 个 账号 
。 配置 文件 的 创建 和 更 改 
。 推 文 的 贡献 : 由 用 户 贡献 的 推 文 ， 其 后 跟着 另 一 个 用 户 出 现在 关注 者 的 时 间 线 中 。 
© 删除 一 条 推 文 
。 搜索 推 文 : 可 以 用 搜索 词 或 用 户 名 搜索 推 文 。 
。 转发 : 如 果 由 用 户 转 发 一 条 推 文 ， 推 文 将 出 现在 关注 者 的 时 间 线 上 。 换 句 话说 ， 
如 果 用 户 关注 了 另 一 个 用 户 ， 后 者 转发 一 条 推 文 的 话 ， 然 后 这 篇 推 文 将 出 现在 前 者 的 时 间 
线 上 。 
。 回复 : 如 果 某 用 户 回复 了 发 布 该 推 文 的 用 户 的 消息 ， 则 该 消息 将 会 出 现在 关注 他 
们 的 另 一 个 用 户 的 时 间 线 中 。 
。 直接 发 送 消息 : 用 户 直接 向 其 关注 者 发 送 消 息 。 
。 添加 位 置信 息 到 推 文 
© 散 列 标签 加 入 推 特 : 推 文 以 “#” 开 始 的 字符 串 作 为 搜索 条 件 之 一 。 散 列 标签 通常 
表明 特定 的 主题 或 构成 连贯 的 社区 。 
。 HEXER EA R IAY AHE 
。 EE LMT VE Hy Be Bete A BE SCP 
© 上 传 和 分 享 照片 
(5) 与 类 似 媒 体 的 比较 
Twitter 是 文本 导向 的 ， 类 似 通 用 的 博客 平台 ,如 WordPress [ WordPress 2014] 和 Blog- 
ger [Blogger 2014 ] 。 当 然 ，Twitter 还 可 以 包括 如 上 所 述 其 他 媒体 的 链接 。 另 一 方面 ， 推 文 
的 字符 数 要 少 于 一 般 博 客 文章 的 字符 数 ， 并 且 发 布 的 也 更 加 频繁 。 顺 便 说 一 句 ， 双 ordPress 
不 仅 是 一 个 博客 平台 ， 而 且 还 能 够 轻松 地 构建 LAMP (Linux Apache MySQL PHP) 栈 上 的 
应 用 程序 ， 因 此 它 被 广泛 用 作 企 业 的 内 容 管 理 系统 ( Content Management System, CMS) ) 。 
(6) 应 用 程序 界面 
Twitter 提供 了 代表 性 的 状态 转换 ( Representational State Transfer, REST) 和 流 媒 体 作 
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为 它 的 Web 服务 应 用 程序 界面 。 
1.2.2 Flickr 


(1) 类 别 和 基础 

Flickr [ Flickr 2014, Flickr - Wikipedia 2014 ] 是 由 斯 图 尔 特 . 巴特 菲尔德 (Stewart 
Butterfield) 和 卡特 里 娜 . SESE (Caterina Fake) 于 2004 年 创立 的 公司 Ludicorp 推出 的 照片 
共享 服务 ( 见 图 1.2)。Flickr 专注 于 聊天 服务 ， 在 创立 早期 提供 实时 照片 交换 。 然 而 ， 现 
如 今 它 的 照片 共享 服务 变 得 更 受 欢 迎 ， 而 最 初 以 聊天 为 主要 目的 的 业务 却 消失 了 ， 部 分 原 
因 是 它 存在 一 些 问 题 。 


flickr 


Inspiring photography. 


Introducing the all new Flickr app. 


yo. 
wan © Share and connect with the 


(5S y) Flickr Community. 


@ Stunning photos made easy. 


All your pictures in one place 


图 1.2 Flickr 


(2) 数量 
。 注册 用 户 : 87M 
e 照片 数量 . 6B 
(3) 数据 结构 
(与 用 户 相 关 的 ) 
。 账户 


。 配置 文件 

(与 内 容 相关 的 ) 

。 照片 

。 设置 照片 集 

。 喜欢 的 照片 

。 注释 

。 标签 

。 可 交换 图 像 文 件 格式 

(与 关系 相关 的 ) 

。 分 组 

。 联系 

。 相册 (照片 ) 的 书签 

(4) 主要 的 交互 

。 创建 和 删除 一 个 账号 

© 配置 文件 的 创建 和 更 改 

。 上 传 照片 

© 打包 成 照片 集 

。 给 照片 添加 注释 

。 在 地 图 上 排列 照片 

。 疝 组 添加 照片 

© 在 朋友 或 家 人 之 间 建 立 联系 

。 通过 解释 和 标签 搜索 

(5) 与 类 似 媒 体 的 比较 

在 照片 共享 服务 类 中 ， 虽然 Picasa [Picasa 2014] 和 Photobucket [ Photobucket 2014 ] 
也 像 Flickr 一 样 流行 ， 在 这 里 我 们 将 选取 Pinterest [Pinterest 2014] 和 Instagram [ Instagram 
2014] 作为 代表 ， 它 们 是 具有 独特 功能 的 新 对 手 。 与 Flickr 相 比 ，Pinterest 在 用 户 端 提供 
轻 量 级 服务 。 也 就 是 说 ， 在 Pinterest 中 ， 用 户 不 仅 可 以 上 传 如 同 Flickr 的 原始 照片 ， 而 且 
还 可 以 通过 他 们 在 Pinterest 以 及 Web 上 搜索 和 找到 的 引 脚 ， 将 他 们 喜欢 的 照片 粘贴 在 自己 
的 公告 板 上 。 男 一 方面 ，Instagram 则 是 为 用 户 提供 了 许多 过 滤器 ， 通 过 它们 可 以 轻松 地 编 
辑 照 片 。2012 年 6 月 ，Facebook 宣布 收购 了 Instagram, 

(6) 应 用 程序 界面 

Flickr 提供 REST，XML - RPC (XML 远程 过 程 调用 ) 和 SOAP (最 初 的 简单 对 象 访问 
协议 ) 作为 Web 服务 API。 


1.2.3 YouTube 


(1) 类 别 和 基础 

YouTube [ YouTube 2014] 是 由 乍得 . 贺 利 (CHAD HURLEY), KE (STEVE 
CHEN), W . 卡 林 姆 (JAWED KARIM) 等 人 于 2005 年 创办 的 视频 分 享 服务 ( 见 图 
1.3) 。 当 他 们 在 分 享 录制 的 晚 实 视 频 时 ， 遇 到 了 困难 ， 于 是 有 了 个 想法 ， 将 YouTube 作为 
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简单 的 解决 方案 。 


(2) 数量 


[Ð Popular on YouTube 


Pawtralt - Simon's Cat 
Sines Col 720078 


Kl 1.3 YouTube 


e 每 分 钟 上 传 100 小 时 时 长 的 电影 
。 每 月 播放 超过 60 亿 小 时 时 长 的 电影 
。 每 月 有 超过 10 亿 用 户 访问 


(3) 数据 结构 
(与 用 户 相关 的 ) 
。 账号 
(与 内 容 相关 的 ) 
。 视频 
。 喜欢 的 
(与 关系 相关 的 ) 
。 频道 
(4) 主要 的 交互 


。 创建 和 删除 一 个 账号 
。 配置 文件 的 创建 和 更 改 


。 上 传 视频 
。 编辑 视频 


。 给 视频 添加 注释 


。 播放 视频 


。 搜索 和 浏览 视频 

。 视频 的 星 级 测评 

。 在 视频 中 添加 评论 
。 在 列表 中 注册 频道 
。 将 视频 添加 到 收藏 夹 


。 通过 电子 邮件 和 社交 网 络 共 享 视 频 

(5) 与 类 似 媒 体 的 比较 

在 这 个 类 别 里 ， 日 本 的 Niconico (在 日 语 中 意 为 微笑 ) [ Niconico 2014] 和 美国 的 US- 
TREAM [USTREAM 2014] 都 是 有 特色 的 竞争 对 手 。 虽 然 Niconico 提供 的 服务 之 
Niconico Douga 与 YouTube 类 似 ， 但 和 YouTube 不 同 的 是 ， Niconico Douga 允许 用 户 向 电影 
中 添加 评论 ， 这 些 评论 可 以 车 加 在 电影 上 ， 然 后 被 其 他 用 户 看 到 。 如 同 最 样 ， 这 
些 评论 也 吸引 了 很 多 用 户 。Niconico Live 是 Niconico 提供 的 男 一 项 服务 ， 它 类 似 于 US- 
TREAM 的 直播 视频 服务 。USTREAM 设计 的 初衷 ， 是 为 在 PEO RE 
家 人 进行 沟通 。USTREAM 可 以 同时 发 布 推 文 和 视频 观看 ， 这 使 得 它 流行 开 来 。USTREAM 
和 Niconico Live 都 可 以 被 视 为 新 一 代 的 广播 服务 ， 它 们 比 传统 的 主流 服务 更 有 针对 性 。 

(6) 应 用 程序 界面 

YouTube 为 用 户 提供 了 一 个 库 ， 使 用 户 能 够 从 编程 环境 (如 Java Fl PHP) 调用 其 Web 
服务 。 


1.2.4 Facebook 


(1) 类 别 和 基础 

Facebook [Facebook 2014, Facebook - Wikipedia 2014] 是 由 马克 . 扎 克 伯 格 ( Mark 
Zuckerberg) 和 其 他 人 在 2004 年 创立 的 综合 社交 网 络 服务 ， 用 户 以 他 们 的 真实 姓名 参与 社 
交 网 络 ( 见 图 1.4) 。Facebook 从 一 个 旨 在 促进 学 生 之 间 交 流 的 网 站 开始 ， 并 从 此 成 长 为 
一 个 可 能 影响 国家 命运 的 网 站 。Facebook 通过 向 应 用 开发 商 开 放 其 开发 平台 或 向 其 提供 补 
贴 ， 成 功 地 推动 了 Facebook 应 用 的 开发 。 此 外 ，Facebook 发 明了 一 种 称 为 社交 广告 的 机 
制 。 例 如 ， 通 过 Facebook 的 社交 广告 ， 推 荐 “您 的 朋友 了 购买 产品 P” 将 出 现在 了 朋友 的 
WEE, Facebook 的 社交 广告 ， 与 亚 蕊 撑 的 基于 客户 行为 的 历史 挖掘 进行 匿名 推荐 ,有 着 
明显 的 区 别 。 


facebook 
Facebook helps you connect and share with Create an account 


the people in your life. It’s free and always will be. 


New Password 


Birthday 
Day | Month | Year | Why do I need to provide my 
date of birth? 


Female Male 
By clicking Greate vr account pou ogee io our Terms and ha 
you have read our Data Use Policy, including our Cookie Use. 
Create an account 


Create a Page for a celebrity, band or business. 


图 1.4 Facebook 
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(2) 数量 

。 活跃 用 户 : 1B 

(3) 数据 结构 

(与 用 户 相关 的 ) 

。 账号 

。 配置 文件 

(与 内 容 相关 的 ) 

。 照片 

o 视频 

(与 关系 相关 的 ) 

© 好 友 列 表 

© 新 闻 提 要 

e 分 组 

(4) 主要 的 交互 

。 创建 和 删除 一 个 账号 

。 配置 文件 的 创建 和 更 改 

。 搜索 好 友 

。 将 好 友 分 类 至 不 同 列表 中 

。 关联 查询 

。 贡献 (最 近 的 状态 、 照 片 、 视 频 和 问题 ) 

。 时 间 线 显示 

© 发 送 和 接收 消息 

(5) 与 类 似 媒 体 的 比较 

除 包括 了 Flickr 或 YouTube 等 的 照片 和 视频 服务 之 外 ，Facebook 还 采用 了 时 间 轴 功能 ， 
这 是 Twitter 的 基本 功能 。Facebook 整合 了 其 他 类 别 中 最 好 的 社交 媒体 ， 所 以 说 ， 作 为 一 个 
整体 ， 它 是 更 高 级 的 混合 社交 网 络 。 

(6) 应 用 程序 界面 

FQL (Facebook 查询 语言 ) 作为 API， 可 以 用 于 访问 开放 图 表 ( 即 社交 图 表 ) 。 


12.5 维基 百科 


(1) 类 别 和 基础 

维基 百科 [Wikipedia 2014] 是 一 个 在 线 百 科 全 书 服务 ， 它 是 一 个 合作 工作 的 结 
由 吉米 . 威尔士 (Jimmy Wales) 和 拉 里 . 桑 格 (Larry Sanger) 创立 于 2001 年 ( 见 图 
1.5) 。 维 基 百 科 的 历史 从 Nupedia [ Nupedia 2014] 开始 ， 始 于 2000 年 ， 是 之 前 的 一 个 项 
Ho Nupedia 基于 无 版 权 的 内 容 ， 旨 在 建立 一 个 类 似 的 在 线 百 科 全 书 。 与 维基 百科 不 同 的 
Æ, Nupedia 采用 了 传统 的 编辑 过 程 ， 根 据 专 家 的 贡献 和 同行 评审 来 发 表 文 章 。 维 基 百 科 
最 初 是 由 维基 软件 构建 的 ， 目 的 是 增加 文章 ， 这 和 2001 年 时 Nupedia 的 文章 贡献 类 似 。 在 
维基 百科 的 早期 阶段 ， 它 通过 网 络 口碑 而 说 得 了 声誉 ， 并 通过 一 个 社交 新 闻 网 站 Slashdot 
[Slashdot 2014] 吸引 了 很 多 网 友 的 注意 力 。 维 基 百 科 借 助 搜索 引擎 (如 Google) 迅速 扩 


大 了 其 吸引 力 。 


WIKIPEDIA 


English Español 
The Free Encyclopedia La enciclopedia libre 
4 509 000+ articles 1 099 000+ articulos 
日 本 语 Deutsch 
了 UJ 一 百科 事 典 Die freie Enzyklopädie 
908 000+ 记事 1 716 000+ Artikel 
Pycckna Frangais 
Ceo6odxas asHyuuKnoneduaA L'encyclopédie libre 
1111 000+ crareii 1 503 000+ articles 
Italiano Portugués 
L'enciclopedia libera A enciclopédia livre 
1 120 000+ voci 827 000+ artigos 
Polski 中 文 
Wolna encyklopedia 自由 的 百科 全 书 
1 044 000+ haset 767 000+ 休 目 
[ae z 


Find Wikipedia in a language: > 
e «ooo oo a N 


Deutsch + English + Español + Français * Italiano + Nederlands * Polski + Pycckuň * Svenska 


图 1.5 维基 百科 


(2) 数量 

。 文章 数量 : 4M (英文 版 ) 

e 用 户 数量 : 超过 20M (英文 版 ) 
(3) 数据 结构 

(与 用 户 相 关 的 ) 

。 账号 

(与 内 容 相 关 的 ) 

。 页 面 
(与 关系 相关 的 ) 

。 链接 

(4) 主要 的 交互 
(管理 员 或 编辑 ) 

。 创建 、 更 新 和 删除 文章 

。 创建 、 更 新 和 删除 文章 的 链接 
。 变更 管理 (修订 历史 ， 差异 ) 
。 搜索 

。 HPEH 
(一 般 用 户 ) 

e 浏览 网 站 中 的 页 首 
。 搜索 网 站 中 的 网 页 
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(5) 与 类 似 媒体 的 比较 
从 协作 平台 的 角度 来 看 ， 维 基 百 科 应 该 与 其 他 多 媒体 或 云 服务 (如 ZOHO [ZOHO 


2014]) 进行 比较 。 然 而 ， 从 男 一 个 角度 ， 即 将 “知识 的 搜索 ”作为 维基 百科 的 最 终 目 的 


来 看 ， 社 


交 搜 索 服 务 将 是 维基 百科 的 竞争 对 手 ， 我 们 应 该 注意 到 ， 主 要 的 搜索 引擎 (如 


Google [ Google 2014] 和 Bing [Bing 2014]) 和 维基 百科 之 间 的 差别 在 缩小 。 通 常情 况 下 ， 
这 些 常规 搜索 引擎 会 对 搜索 结果 进行 机 械 地 排名 ， 并 将 其 显示 给 用 户 。 然 而 ， 通 过 允许 用 


户 以 某 些 
搜索 引擎 


形式 在 搜索 过 程 之 间 进 行 干预 ， 当 前 的 搜索 引擎 将 会 改进 搜索 结果 的 质量 。 一 些 
包括 了 通过 在 社交 媒体 中 的 朋友 搜索 结果 链接 的 相关 页 面 。 为 了 得 到 查询 的 答 


案 ， 其 他 搜索 引 警 发现， 借助 于 个 人 资料 、 上 传 的 照片 和 博客 文章 有 可 能 找到 解决 相关 问 
题 的 社交 媒体 中 的 朋友 和 网 络 上 的 专家 。 


(6) 
在 维 


1.2.6 


(1) 


应 用 程序 界面 
基 百 科 中 ，Media Wiki [ Media Wiki 2014] 的 REST API 可 以 用 于 访问 Web 服务 。 


通用 网 络 
类 别 和 基础 


当 蒂 姆 . 伯 纳 斯 - 李 (Tim Berners - Lee) 作为 研究 员 加 入 欧洲 核子 研究 中 心 时 ,他 


提出 了 以 
WWW 项 


网 络 作为 全 球 信息 共享 机 制 的 原型 ， 并 在 1990 年 创立 了 第 一 个 网 页 。 第 二 年 ， 
目的 概要 发 布 ， 同 时 启动 了 它 的 服务 。 自 网 络 诞生 以 来 ， 从 某 种 意义 上 说 ， 我 们 


感 兴趣 的 是 整个 网 络 ， 因 为 它 包 含 了 所 有 类 别 的 社交 媒体 。 


(2) 


数量 


e 可 索引 Web 的 大 小 : 超过 11.5B [Gulli et al. 2005 | 


(3) 


数据 结构 


(与 用 户 相关 的 ) 
。 不 适用 
(与 内 容 相关 的 ) 


。 页 面 


(与 关系 相关 的 ) 
。 链接 


(4) 


主要 业务 


(管理 员 ) 
。 创建 、 更 新 和 删除 页 面 
。 创建 、 更 新 和 删除 链接 


(一 般 用 户 ) 
。 在 网 站 中 浏览 页 面 
。 在 网 站 中 搜索 页 面 


。 表单 输入 
(5) 与 类 似 媒 体 的 比较 
由 于 网 络 是 一 个 包含 所 有 类 别 的 通用 集合 ， 因 此 我 们 不 能 把 它 与 其 他 类 别 进行 比较 。 


一 般 来 说 


， 网 络 可 以 分 为 表面 网 络 和 深层 网 络 。 表 面 网 络 的 网 站 只 允许 用 户 点 击 链接 和 浏 
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览 页 面 ， 而 对 于 那些 拥有 后 端 数 据 库 的 深层 网 络 来 说 ， 则 可 以 基于 用 户 通 过 搜索 表单 和 数 
据 库 查询 的 结果 ， 动 态 地 创建 页 面 并 将 它们 显示 给 用 户 。 此 外 ,深层 网 络 的 站 点 正在 迅速 
增加 [He et al. 2007] 。 深 层 网 络 的 类 别 包括 由 亚马逊 提供 的 网 上 购物 服务 ， 以 及 本 书 中 
所 描述 的 各 种 各 样 的 社交 媒体 。 

(6) 应 用 程序 界面 

由 诸如 Yahoo 的 搜索 引 敬 所 提供 的 Web 服务 应 用 程序 界面 ， 我 们 可 以 方便 地 搜索 到 网 
页 。 除 非 我 们 使 用 这 样 的 API， 否 则 需要 自己 进行 繁琐 的 Web 抓 取 。 


1.2.7 其 他 社交 媒体 


尚未 讨论 的 社交 媒体 类 别 将 在 下 面 列举 。 

。 共享 服务 : 除了 之 前 描述 的 照片 和 视频 外 ,音频 (如 Rhapsody [ Rhapsody 2014 ] 
FI iTunes [iTunes 2014]) 和 书签 (如 Delicious [ Delicious 2014] 和 面向 日 本 用 户 的 Hate- 
na 书签 [Hatena 2014]) 也 都 可 以 由 用 户 共 享 。 

。 视频 通信 : 用 户 可 以 通过 直播 视频 进行 通信 。Skype [Skype 2014] 和 Tango [ Tan- 
go 2014] 都 包含 在 此 类 别 中 。 

。 社交 新 闻 : 用 户 可 以 发 布 原创 新 闻 ， 或 者 通过 向 现 有 新 闻 添 加 评论 来 重新 发 布 。 
此 类 别 的 代表 性 媒体 包括 除了 Slashdot 之 外 的 Digg [ Digg 2014] 和 Reddit [ Reddit 2014 ] 。 

© 社交 游戏 : 组 用 户 可 以 玩 的 网 络 游戏 。 这 类 服务 中 的 游戏 包括 Farm Ville [Farm 
Ville 2014] 和 Maifia Wars [ Maifia Wars 2014 ] 。 

© 人 力 外 包 : 这 类 服务 允许 个 人 或 企业 用 户 将 整个 或 部 分 工作 外 包 给 在 线 社区 的 人 
群 。 在 此 类 别 中 ， 所 提供 的 服务 包括 亚马逊 的 Mechanical Turk [ Amazon Mechanical Turk 
2014] 为 请 求 劳动 密集 型 工作 ，InnoCentive [InnoCentive 2014] 为 请 求 研 发 型 工作 。 
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第 2 音 大 数据 和 社交 数据 


当前 ， 现 代 社 会 的 各 行 各 业 不 断 产生 大 量 的 数据 ， 这 样 的 海量 数据 被 称 为 大 数据 。 大 
数据 的 数据 来 源 既 包括 物理 和 真实 世界 的 ， 也 包括 社交 媒体 的 。 如 果 我 们 对 这 两 种 数据 以 
相互 关联 的 方式 进行 分 析 ， 将 会 发 现 仅 通过 独立 分 析 所 无 法 获得 的 价值 ， 而 且 可 在 从 商业 
到 科学 的 各 种 应 用 中 利用 这 些 价值 。 在 本 章 中 ， 我 们 将 会 对 涉及 物理 真实 世界 和 社交 媒体 
的 相互 作用 进行 建 模 和 分 析 ， 并 说 明 所 使 用 的 相关 技术 。 在 第 二 部 分 ， 将 介绍 并 分 析 所 需 
要 的 数据 挖掘 技术 。 


2.1 大 数据 


当今 时 代 ， 在 诸如 科学 、 互 联网 和 物理 系统 的 各 个 领域 中 每 时 每 刻 都 会 产生 大 量 的 数 
据 。 这 种 现象 统称 为 数据 洪流 [ Mcfedries 2011] 。 根 据 IDC 进行 的 研究 [IDC 2008, IDC 
2012] ， 每 年 在 世界 上 生成 和 再 现 的 数据 的 大 小 估计 为 161 EB ( 见 图 2.1)。 此 处 的 K、M、 
G, T, P, E, Z 是 依次 增加 10” 倍 的 数量 级 词 头 。E 和 Z 分 别 表示 10™ 和 10”。 预 计 2011 
年 产生 的 数据 总 量 将 会 超过 该 年 可 用 存储 介质 的 存储 容量 的 10 倍 或 更 多 倍 。 


图 2.1 海量 数据 


天 文学 、 环 境 科学 、 粒 子 物 理学 、 生 命 科 学 和 医学 是 通过 观察 和 分 析 目 标的 现象 产生 
大 量 数据 的 科学 领域 。 射 电 望 远 镜 、 人 造 卫 星 、 粒 子 加 速 器 、DNA 测序 、 核 磁 共 振 成 像 
不 断 为 科学 家 们 提供 了 大 量 的 数据 。 
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如 今 ， 即 使 是 普通 人 ， 更 不 要 说 专家 ， 也 会 通过 互联 网 服务 直接 或 有 意 地 产生 大 量 的 
数据 。 这 些 互联 网 服务 包括 数字 图 书馆 、 新 闻 、 网 络 、 原 始 媒体 和 社交 媒体 。Twitter、 
Flickr, Facebook 和 YouTube 是 近年 来 发 展 迅 速 的 社交 媒体 的 代表 。 此 外 ， 一 些 新 闻 网 站 
(如 Slashdot) 和 一 些 维基 (如 维基 百科 ) 也 可 以 看 作 是 社交 媒体 的 其 他 类 别 。 

男 一 方面 ， 来自 电 力 设备 、 燃 气 设备 、 数 字 照 相机 、 监 控 摄 像 关 和 建筑 物 内 部 的 传 感 
器 〈 例 如 被 动 红外 、 温 度 、 照 明度 、 湿 度 和 二 氧化 碳 传感器 ) ， 以 及 来 源 于 运输 系统 的 数 
据 (例如 运输 工具 和 物流 )， 都 是 人 们 在 物理 系统 中 所 间接 和 无 意识 地 产生 的 数据 。 到 目 
前 为 止 ， 可 以 说 ， 作 为 人 类 的 数据 排放 [Zikopoulos et al. 2011] ,恰恰 考虑 了 由 物理 系统 产 
生 的 这 种 数据 。 然 而 ， 现 在 人 们 认为 可 以 重新 利用 这 样 的 数据 ， 并 且 从 中 产生 商业 价值 。 

在 上 述 IDC 研究 的 报告 中 ， 在 科学 、 互 联网 和 物理 系统 中 产生 的 数据 统称 为 大 数据 。 

大 数据 的 特点 可 以 总 结 如 下 : 

o 数据 量 (Volume) 是 非常 大 的 ， 如 大 数据 这 个 词 的 名 称 所 示 。 

© 数据 的 种 类 (Variety) 已 经 扩展 到 非 结构 化 文本 、 半 结构 化 数据 (例如 XML) 和 
图 形 〈 即 网 络 ) 。 

© 如 同 Twitter 和 传感器 数据 流 中 的 情况 一 样 ， 生 成 数据 的 速度 (Velocity) 非常 快 。 

因此 ， 大 数据 通常 用 Volume, Variety 和 Velocity 这 三 个 单词 的 首 字母 来 表征 为 V*。 人 
们 期 待 大 数据 不 仅 在 科学 界 能 创造 知识 ， 而 且 能 够 为 各 种 企业 创建 价值 。 

提 到 种 类 ， 笔 者 认为 ， 大 数据 出 现在 各 种 各 样 的 应 用 中 。 大 数据 本 质 上 包含 “模糊 
性 ”(Vagueness ) ， 如 不 一 致 性 和 缺失。 为 了 获得 高 质量 的 分 析 结 果 ， 这 样 的 模糊 性 必须 
得 到 解决 。 此 外 ,最 近 在 日 本 做 的 一 项 调查 清楚 地 表明 ， 很 多 用 户 对 大 数据 应 用 能 否 的 安 
全 和 机 制 有 “模糊 ”的 担忧 。 这 些 问题 的 解决 是 大 数据 应 用 能 否 成 功 开展 的 关键 之 一 。 
从 这 个 意义 上 来 说 ,我们 应 该 用 V* 而 非 V 来 描述 大 数据 的 特点 。 

社交 媒体 数据 是 一 种 满足 V* 特征 的 大 数据 。 首 先 ， 社 交 媒 体 的 规模 非常 大 ， 如 第 1 
章 所 述 。 其 次 ，Tweets 主要 由 文本 组 成 ， 原 始 媒体 由 XML ( 半 结 构 化 数据 ) 组 成 ，Face- 
book 文章 除了 文本 之 外 还 包含 照片 和 电影 。 最 后 ， 社 交 媒 体 的 用 户 (例如 Twitter 和 Face- 
book) 之 间 的 关系 构成 了 大 规模 图 (网络) 。 此 外 ，Tweets 的 产生 速度 非常 快 。 社 交 数 据 
也 可 以 与 各 种 大 数据 结合 使 用 ， 尽 管 它 们 在 本 质 上 还 存在 着 矛盾 和 不 足 。 由 于 社交 数据 中 
包含 个 人 信息 ， 因 此 ， 充 分 的 隐私 保护 和 安全 管理 是 强制 性 的 。 

用 于 从 大 量 数据 中 发 现 感 兴趣 模式 ( 值 ) 的 技术 和 工具 包括 数据 挖掘 ， 如 关联 规则 
挖掘 、 聚 类 和 分 类 。 而 另 一 方面 ， 主 要 用 于 预测 未 来 事件 的 技术 ， 使 用 的 则 是 过 去 的 数 
据 ， 包 括 诸如 多 变量 分 析 的 数据 分 析 。 

当然 ， 从 现在 开始 ， 数 据 挖掘 和 数据 分 析 必 须 越 来 越 频繁 地 被 用 来 处 理 这些 大 数据 。 
因此 ， 即 使 数据 量 增加 了 ， 数 据 挖掘 算法 的 执行 仍然 需要 由 系统 在 实际 处 理 时 间 内 来 实 
现 。 如 果 随 着 数据 量 的 增加 ， 一 个 算法 的 处 理 时 间 也 成 比例 地 相应 增加 ， 则 算法 和 处 理 时 
间 之 间 是 线性 关系 。 换 句 话 说， 线性 意味 着 ， 即 使 数据 量 增 加 ， 也 可 以 通过 某 种 方法 将 处 
理 时 间 保 持 在 可 行 的 范围 内 。 如 果 通 过 特定 的 方法 ， 一 个 算法 或 其 实现 可 以 保持 这 种 线 
性 ， 则 称 算法 或 其 实现 具有 可 伸缩 性 。 对 于 数据 挖 气 和 数据 分 析 而 言 ， 如 何 实现 可 伸缩 性 
是 一 个 紧迫 的 问题 。 


可 伸缩 性 的 实现 方法 大 致 可 以 分 为 以 下 几 种 : 纵向 扩展 和 横向 扩展 。 前 者 提高 了 计算 
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资源 之 中 当前 计算 机 的 处 理 能 力 〈 即 CPU) 。 另 一 方面 ， 后 者 保持 当前 每 个 计算 机 的 能 
并 多 路 复 用 计算 机 。 在 互联 网 上 提供 大 规模 服务 的 互联 网 巨头 (如 亚 马 进 和 谷歌 ) ， 通 常 
采取 横向 扩展 的 方法 。 

接 下 来 ， 关 于 处 理 大 规模 数据 的 性 能 ， 除 了 可 伸缩 性 之 外 还 存在 另 一 个 高 维度 的 问 
题 。 在 许多 情况 下 ， 数 据 挖掘 和 数据 分 析 的 目标 数据 可 以 被 视 为 由 大 量 属性 或 大 量 维度 的 
可 量 组 成 的 对 象 。 例 如 ， 由 于 应 用 的 不 同 ( 如 稍 后 所 述 )， 属 性 的 数量 和 向 量 的 维度 可 能 
会 非常 大 ， 诸 如 文档 的 特征 向 量 。 随 着 维度 数量 的 增加 而 发 生 的 问题 统称 为 维度 灾难 。 例 
如 ， 当 对 于 每 个 维度 以 固定 比率 收集 采样 数据 时 ， 存 在 随 着 数据 维 数 的 增加 ， 采 样 的 大 小 
痢 数 性 地 增加 的 问题 。 对 于 这 种 情况 ， 有 必要 对 数据 挖掘 和 数据 分 析 进 行 适当 处 理 。 

数据 挖掘 和 数据 分 析 必 须 考 虑 的 问题 不 仅仅 局 限于 数据 量 和 数据 维度 的 增加 。 所 要 处 
理 的 数据 结构 的 复杂 性 也 会 随 着 应 用 领域 的 扩展 而 产生 新 的 问题 。 尽 管 传 统 的 数据 分 析 和 
数据 挖掘 主要 针对 的 是 商业 交易 中 的 结构 化 数据 ， 但 是 随 着 互联 网 和 Web 的 发 展 ， 处 理 
图 形 和 半 结 构 化 数据 的 机 会 也 在 增加 。 些 外， 传感器 网 络 可 以 产生 基本 的 时 间 序 列 数据 ， 
而 全 球 定 位 系统 (Global Positioning System, GPS) 的 设备 则 可 以 向 数据 中 添加 位 置信 息 。 
非 结 构 化 多 媒体 数据 ， 如 照片 、 视 频 和 音频 ， 也 已 成 为 数据 挖掘 的 目标 。 此 外 ， 在 以 分 布 
式 方式 管理 数据 挖掘 和 数据 分 析 的 目标 数据 的 情况 下 ， 除 了 复杂 数据 结构 的 问题 之 外 ， 还 
可 能 会 发 生 诸如 通信 成 本 、 数 据 集 成 和 安全 等 问题 。 

请 注意 数据 洪流 这 个 词 只 是 一 种 现象 的 名 称 。 在 本 书 中 ,“ 大 数据 ”这 个 词 将 用 于 大 
规模 数据 这 一 更 为 普遍 的 概念 ， 以 及 如 何 分析 和 利用 ， 而 不 仅仅 是 现象 的 名 称 。 更 确切 地 
说 ， 本 书 将 引入 一 个 新 兴 的 学 科 ， 它 被 称 为 社交 大 数据 科学 ， 并 描述 其 概念 、 技 术 和 
应 用 。 


2.2 物理 真实 世界 与 社交 媒体 的 交互 


基于 大 数据 的 起 源 ， 它 们 大 致 可 以 被 分 为 物理 真实 世界 数据 ( 即 异 构 数 据 ， 如 科学 数 
据 、 事 件数 据 和 交通 数据 ) 和 社交 数据 ( 即 社 交 媒 体 数据 ， 如 Twitter 文章 和 Flickr 照 
Frye 

大 多 数 物理 真实 世界 数据 是 由 将 自己 的 行为 日 志 留 在 信息 系统 中 的 客户 所 生成 的 。 例 
如 ， 关 于 客户 签 人 和 签 出 的 数据 ， 是 通过 将 他 们 的 IC 卡 插 入 到 运输 管理 系统 中 的 数据 库 
中 而 生成 的 。 关 于 客户 使 用 设施 的 数据 也 存储 在 设施 管理 数据 库 中 。 此 外 ， 客 户 行 为 还 被 
记录 为 传感器 数据 和 视频 数据 。 换 句 话 说， 现实 世界 的 物理 数据 大 多 只 包含 潜在 或 隐 含 的 
语义 ， 因 为 客户 不 知道 他 们 的 数据 已 经 被 收集 。 

另 一 方面 ， 客 户 有 意识 地 将 他 们 在 物理 真实 世界 中 的 行为 记录 为 社交 数据 。 例 如 ， 他 
们 发 布 照片 和 视频 ， 在 事件 或 旅行 中 做 记录 ， 分 享 服务 ， 以 及 发 布 有 关 事 件 或 旅行 的 各 种 
信息 〈 如 行为 和 情绪 ) 到 微 博 上 。 简 而 言 之 ， 与 物理 真实 世界 数据 不 同 ， 社 交 数 据 包 含 
明确 的 语义 ， 因 为 客户 自愿 创建 了 这 些 数据 。 

此 外 ， 正 是 通过 用 户 才 实 现 了 物理 真实 世界 数据 和 社交 数据 之 间 的 双向 交互 ( 见 图 
2.2) 。 也 就 是 说 ， 如 果 关 注 这 种 交互 的 一 个 方向 ， 将 会 观察 到 产生 物理 真实 世界 数据 的 事 
件 能 够 影响 到 用 户 ， 并 使 他 们 在 社交 数据 中 描述 该 事件 。 此 外 ， 如 果 关 注 这 种 交互 的 相反 
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方向 ， 则 会 发 现 社交 数据 的 内 容 可 能 会 影响 其 他 用 户 的 行为 (例如 消费 者 行为 )， 而 这 又 
反 过 来 产生 新 的 物理 真实 世界 数据 。 
物理 真实 世界 DEALS 


_— 
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以 物 埋 真实 世界 数据 的 形式 记录 自动 地 以 社交 数据 的 形式 记录 


图 2.2 物理 真实 世界 数据 和 社交 数据 


如 果 能 够 以 集成 方式 分 析 这 些 交 互 ， 则 可 以 将 结果 应 用 于 包括 商业 和 科学 的 广泛 领 
域 。 也 就 是 说 ， 例 如 ， 如 果 留 意 分 析 从 物理 真实 世界 数据 到 社交 数据 方向 的 交互 ， 则 以 下 
目的 可 以 实现 。 

o 评估 新 产品 促销 等 市 场 营销 的 有 效 性 

。 发 现 产 品 销售 突然 增加 的 原因 

。 意识 到 需要 对 产品 或 服务 的 问题 采取 对 策 

此 外 ， 如 果 对 所 关注 的 交互 的 反方 向 进行 分 析 ， 则 以 下 结果 可 能 预测 。 

。 客户 未 来 的 行为 

。 潜在 的 客户 需求 

所 有 上 述 交 互 与 包含 物理 真实 世界 数据 和 社交 数据 之 间 的 直接 或 间接 因果 关系 的 应 用 
相关 联 。 男 一 方面 ， 即 使 在 两 种 数据 之 间 不 存在 真正 相关 的 因果 关系 ,一些 相互 作用 的 分 
析 仍 然 是 有 用 的 。 

例如 ， 考 虑 一 种 人 们 去 听 流 行 歌手 演唱 会 的 情况 。 音 乐 会 结束 后 ， 人 们 冲 到 最 近 的 火 
车 站 导致 车 站 和 列车 越 来 越 拥 挤 ， 在 日 本 ,通常 情况 下 公共 交通 比 自驾 车 更 受 欢迎 。 借 助 
IC 卡 ， 这 种 情况 便 可 以 作为 交通 数据 被 记录 下 来 ， 这 是 在 交通 领域 中 的 一 种 物理 真实 世 
界 数据 。 如 果 演 唱 会 给 人 们 留 下 了 深刻 的 印象 ,那么 他 们 还 会 发 布 很 多 文章 到 社交 媒体 
( 见 图 2.3)。 

从 事 交 通 运 营 的 人 想 知 道 交 通 数 据 突然 增加 ( 即 突 发 ) 的 原因 。 然 而 ， 仅 通过 分 析 
交通 数据 就 能 知道 原因 不 大 可 能 。 如 前 所 述 ， 物 理 真 实 志 界 数据 通常 不 包含 显 式 语义 。 男 
一 方面 ， 如 果 可 以 分 析出 演唱 会 之 后 发 布 在 火车 站 附近 的 社交 数据 ， 则 可 以 检测 到 在 社交 
媒体 中 发 布 的 文章 突然 增加 ( 即 另 一 个 突 发 ) ， 然 后 从 收集 到 的 这 些 文章 中 ， 可 以 提取 关 
于 演唱 会 的 信息 来 作为 主要 兴趣 。 结 果 ， 他 们 将 能 够 推测 参加 演唱 会 的 人 们 造成 了 交通 数 
据 的 爆发 。 与 这 种 情况 类 似 ， 在 物理 真实 世界 数据 中 潜伏 的 一 些 显 式 语义 也 可 以 从 相关 的 
社交 数据 中 被 发 现 。 
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图 2.3 物理 真实 世界 数据 和 社交 数据 的 综合 分 析 


当然 ， 在 上 述 情况 下 ， 在 两 种 大 数据 之 间 不 存在 因果 关系 ( 即 真相 关 )。 总 而 言 之 ， 
参加 演唱 会 导致 异 构 数据 〈 即 交通 数据 和 社交 数据 ) 的 同时 增加 是 常见 原因 。 因 此 ,在 
两 种 数据 之 间 存 在 伪 相 关 。 在 此 情况 下 ， 即 使 真正 的 原因 (例如 参加 演唱 会 ) 不 可 用 ， 
如 果 积 极 利用 这 种 伪 相 关 ， 也 可 以 发 现 另 一 种 对 应 的 数据 。 这 样 的 发 现 使 得 运营 管理 者 能 
够 针对 以 后 类 似 的 事件 〈 例 如 以 后 的 演唱 会 ) 采取 适当 的 措施 〈 例 如 ， 将 人 们 分 散 到 不 
同 的 车 站 ) 。 

当然 ， 相 互 作 用 只 能 存在 于 物理 真实 世界 或 仅 在 社交 数据 中 。 前 者 包含 的 数据 是 常规 
数据 分 析 的 目标 ， 如 自然 现象 的 因果 关系 。 后 者 包含 经 常 被 认为 只 有 在 社交 媒体 中 才 会 讨 
论 的 热 议 话题 。 

事实 上 ， 这 种 情况 下 的 分 析 也 有 一 些 价值 。 然 而 ， 从 涉及 使 用 社交 数据 的 企业 的 有 用 
性 的 观点 来 看 ， 涉 及 物理 真实 世界 数据 和 社交 数据 的 情况 更 有 趣 。 如 果 可 以 通过 将 物理 真 
实 世 界 数 据 和 社交 数据 相互 关联 ， 并 注意 从 两 者 之 间 的 交互 进行 分 析 ， 则 可 以 理解 出 仅 从 
它们 中 的 任 一 个 来 分 析 所 不 能 被 理解 的 东西 。 例 如 ， 即 使 仅 深入 分 析 销 售 数据 ， 也 不 能 知 
道 销售 突然 增加 〈 即 客户 突然 购买 更 多 产品 ) 的 原因 。 仅 通过 分 析 社 交 数 据 ， 也 不 可 能 
知道 他 们 对 销售 的 贡献 有 多 少 。 然 而 ， 如 果 可 以 通过 将 销售 数据 和 社交 数据 相互 关联 来 分 
析 ， 则 可 以 基于 结果 ， 发 现 为 什么 货品 突然 开始 销售 ， 并 且 预 测 它们 将 销售 多 少 。 总 之 ， 
这 样 的 综合 分 析 预 期 将 产生 更 大 的 价值 。 

请 注意 ， 本 书 中 经 常 使 用 术语 -社交 大 数据 。 其 目的 是 强调 异 构 数据 源 ， 包 括 以 社交 
数据 和 物理 真实 世界 数据 作为 分 析 的 主要 目标 。 


2.3 集成 框架 


在 本 节 中 ， 从 假设 的 角度 ， 我 们 讨论 了 分 析 社 交大 数据 的 综合 框架 的 必要 性 ， 这 超越 
了 基于 单纯 使 用 数据 分 析 或 数据 挖掘 的 传统 方法 。 为 了 能 够 以 社交 数据 作为 中 介 来 定量 地 
理解 物理 真实 世界 数据 ， 我 们 需要 诸如 多 变量 分 析 的 定量 数据 分 析 。 在 多 变量 分 析 中 ， 首 
先 ， 提 前 进行 假设 ， 然 后 进行 定量 确认 。 换 名 话说， 假设 在 多 变量 分 析 中 起 着 核心 作用 。 
通常 ， 大 多 数 假设 模型 提供 了 用 于 定量 分 析 的 方法 。 

即使 在 大 数据 时 代 ， 假 设 的 重要 性 也 不 会 改变 。 然 而 ， 大 数据 中 的 变量 数量 可 能 会 变 
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得 巨大 。 在 这 种 情况 下 ， 很 难 把 握 住 分 析出 的 全 貌 。 换 名 话说， 维度 灾难 的 问题 也 发 生 在 
概念 层 上 。 这 个 问题 必须 通过 假设 建 模 来 解决 。 

由 于 社交 数据 是 一 种 大 数据 ， 因 此 ， 社 交 数 据 的 数量 和 其 中 的 主题 数量 是 巨大 的 。 然 
而 ,社交 数据 有 时 很 少 或 是 定性 的 ， 这 取决 于 个 体 的 主题 和 内 容 。 例 如 ， 这 样 的 数据 可 能 
对 应 于 关于 次 要 主题 或 新 兴 主 题 的 文章 。 在 这 种 情况 下 ， 不 需要 定量 分 析 ， 而 需要 定性 分 
析 。 也 就 是 说 ,虽然 不 能 进行 假设 的 定量 确认 ,但 是 重要 的 是 建立 和 使 用 定性 假设 来 解释 
现象 。 

分 析 社 交 数 据 的 内 容 主 要 借助 于 数据 挖 据 。 假 设 在 数据 挖掘 中 也 有 重要 作用 。 数 据 挖 
掘 的 每 个 任务 都 自身 构建 一 个 假设 ， 而 每 个 多 元 分 析 的 任务 则 是 去 验证 一 个 给 定 的 假设 。 
因此 ， 我 们 所 期 望 的 是 ， 用 户 ( 即 分 析 者 ) 是 否 可 以 给 出 有 用 的 提示 ， 以 便 在 数据 挖掘 
系统 的 每 个 任务 中 构建 有 兴趣 的 假设 。 

在 分 类 的 情况 下 ， 必 须 允 许 用 户 通过 选择 感 兴趣 的 数据 属性 〈 即 变量 ) ， 或 者 使 用 可 
以 反馈 到 集合 学 习 以 获 得 最 终结 果 的 经 验 规则 ,来 部 分 地 指导 假设 的 构造 。 而 在 聚 类 的 情 
况 下 ， 则 需要 使 用 户 能 够 通过 指定 必须 属于 相同 聚 类 的 个 别 数据 ， 或 者 作为 同一 聚 类 的 成 
员 (数据 必须 满足 的 通用 约束 ) ， 来 部 分 地 引导 假设 的 构造 。 还 期 望 用 户 能 够 列举 出 用 于 
聚 类 算法 的 参数 、 对 整个 聚 类 的 约束 ， 以 及 数据 的 相似 性 的 定义 ， 以 便 获 得 对 用 户 所 感 兴 
趣 的 聚 类 结果 。 在 关联 规则 挖掘 的 情况 下 ， 有 必要 猜测 用 户 所 感 兴趣 的 项 目 ， 并 且 需 要 来 
自用 户 所 示 的 具体 规则 的 最 小 支持 和 置信 和 度 作为 经 验 知 识 。 用 户 列举 的 上 述 提示 可 以 说 是 
早期 假设 ， 因 为 它们 有 助 于 在 后 面 的 数据 挖掘 阶段 产生 假设 。 

在 本 书 中 ， 我 们 将 物理 真实 世界 数据 和 社交 数据 相互 关联 进行 分 析 ， 这 被 称 为 社交 大 
数据 科学 或 社交 大 数据 。 据 笔者 所 知 ， 目 前 还 没有 建 模 框架 能 够 允许 最 终 用 户 或 分 析 师 来 
描述 跨越 数据 挖 据 、 定 量 分 析 和 定性 分 析 的 假设 。 换 句 话 说 ,需要 对 概念 假设 进行 建 模 ， 
使 得 用 户 能 够 在 概念 层 以 综合 的 方式 来 描述 社交 大 数据 的 假设 ， 并 且 如 果 需 要 ， 还 可 以 在 
逻辑 层 通 过 现 有 的 技术 〈 如 多 变量 分 析 和 数据 挖 据 ) 将 其 解释 并 执行 。 

顺便 说 一 下 ， 通 常 为 了 挖掘 而 存储 目标 数据 的 数据 库 管 理 系统 是 由 概念 层 、 逻 辑 层 和 
物理 层 这 三 层 组 成 的 。 社 交大 数据 科学 的 综合 系统 的 参考 架构 遵循 数据 库 管 理 系统 的 三 层 
架构 ， 如 图 2. 4 所 示 。 在 概念 层 ， 系 统 允 许 用 户 〈 即 分 析 者 ) 描述 与 社交 大 数据 相关 的 综 
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图 2.4 社交 大 数据 的 参考 架构 
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合 假设 。 在 逻辑 层 ， 系 统 转 换 在 概念 层 所 定义 的 假设 ,以便 用 户 通过 应 用 诸如 数据 挖掘 和 
多 变量 分 析 的 单个 技术 来 实际 确认 它们 。 在 物理 层 ， 系 统 通 过 并 行 分 布 式 处 理 的 软件 和 硬 
件 框架 来 有 效 地 执行 进一步 的 分 析 。 

在 这 里 ， 我 们 引入 一 个 概念 框架 ， 来 模拟 物理 真实 世界 的 数据 和 社交 数据 之 间 的 相互 
作用 。 引 进 的 框架 称 为 物理 真实 世界 和 社交 媒体 之 间 相 互 作用 的 模型 (Modeling interac- 
tions between Physical real world and Social media，MiPS) 。 虽 然 MiPS 模型 尚未 真正 实施 ， 但 
在 本 书 中 ， 它 将 被 用 作 描 述 综合 假设 具体 例子 的 一 个 形式 体系 。 


2.4 交互 的 建 模 和 分 析 


在 本 节 中 ， 我 们 将 说 明 物 理 真 实 世界 和 社交 媒体 之 间 交 互 的 建 模 和 分 析 过 程 。 
通常 ， 该 过 程 逐 步 执行 如 下 ( 见 图 2.5): 

。( 步 又 一 ) 设置 问题 

© (SR) 物理 真实 世界 和 社交 媒体 之 间 交 互 的 建 模 (构造 假设 ) 

。 (步骤 三 ) 收集 数据 

i 从 物理 真实 世界 的 数据 中 提取 信息 

i 从 社交 数据 中 提取 信息 

© (步骤 四 ) 物理 真实 世界 对 社交 媒体 的 影响 分 析 (假设 确认 1) 

© (步骤 五 ) 社交 媒体 对 物理 真实 世界 的 影响 分 析 (假设 确认 2) 

e (步骤 六 ) 通过 整合 步骤 四 和 步 又 五 中 所 描述 的 影响 的 双向 分 析 ， 以 完成 整个 模型 
(理论 ) 来 解释 交互 。 


© 设置 问题 
©) 物理 真实 世界 和 社交 媒体 之 间 交工 的 建 模 (构造 假设 ) 
@ 收集 数据 
工 .从 物理 真实 焉 界 的 数据 中 提取 信息 
TT. 从 社交 数据 中 提取 信息 
© 物理 真实 世界 对 社交 媒体 的 影响 分 析 ( 假 设 确认 1) 
@ 社交 媒体 对 物理 真实 世界 的 影响 分 析 (假设 备 认 3) 
© 通过 整合 消 又 四 和 歼 中 所 描述 的 影响 的 双向 分 析 、 以 党 成 整个 模型 (理论 ) 米 解 稀 交 互 


图 2.5 分 析 过 程 


如 果 需 要 ， 可 以 有 从 每 个 步骤 到 前 面 步 又 的 反馈 。 一 些 应 用 领域 仅 需要 上 述 过 程 中 的 
步骤 四 和 步骤 五 中 的 任 一 个 。 此 外 ， 这 些 步骤 的 顺序 也 可 以 根据 应 用 领域 来 确定 。 下 面 将 
更 详细 地 描述 该 过 程 中 的 每 个 步 又。 

(1) 问题 设置 

在 步骤 一 中 ， 用 户 设置 要 解决 的 问题 。 这 样 的 问题 往往 可 以 以 询问 的 形式 来 表述 。 换 
名 话 说 ， 在 这 个 阶段 ， 用 户 可 以 描述 某 特 定时 间 在 特定 区 域 感 兴趣 的 现象 ， 以 便于 解释 
它 。 基 本 类 型 的 询问 各 不 相同 ， 取 决 于 如 下 分 析 目 的 : 

。 发 现 原因 (为 什么 会 发 生 ?) 
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© 预测 效果 (会 发 生 什 么 ?) 

© 发 现 关 系 ( 它 们 是 如 何 相互 关联 的 ?) 

。 将 数据 分 类 为 已 知 类 别 ( 它 属于 哪个 类 别 ?) 

。 将 相似 数据 分 组 (它们 彼此 有 什么 相似 之 处 ?) 

© 发 现 异常 (多 久 才 会 发 生 一 次 ?) 

在 某 种 意义 上 ， 这 些 问题 帮助 用 户 大 致 确定 后 续 应 该 执行 哪些 类 型 的 分 析 任 务 ， 关 注 
问题 的 意图 是 非常 重要 的 。 进 一 步 ， 为 了 解决 这 个 问题 ， 用 户 明确 地 定义 了 要 求 使 用 什么 
数据 ， 应 用 什么 样 的 分 析 技 术 ， 假设 采 用 什么 标准 。 

(2) 假设 构造 

在 步骤 二 中 ， 用 户 构 造 一 个 假设 来 作为 问题 的 试验 性 解决 方案 。 为 此 ， 本 书 提出 了 一 
个 框架 ,重点 关注 社交 数据 和 物理 真实 世界 数据 之 间 的 关系 ， 并 以 面向 对 象 的 方式 对 它们 
进行 概念 建 模 。 请 注意 ， 如 果 有 必要 的 话 ， 可 以 对 异 构 物理 真实 世界 数据 之 间 的 关系 进行 
建 模 。 事 实 上 ， 有 一 些 方法 支持 多 变量 分 析 中 相关 变量 的 图 形 化 分 析 。 然 而 ， 它 们 可 以 说 
是 具有 价值 导向 ， 即 细 粒 度 的 。 相 比 之 下 ， 本 书 中 提出 的 假设 建 模 则 是 基于 更 粗 粒 度 方 式 
的 对 象 之 间 的 关系 。 如 产品 活动 和 地 震 之 类 的 物理 事件 以 及 推 文 的 内 容 ， 如 产品 评估 和 地 
震 反 馈 ， 被 认为 是 一 类 对 象 ， 称 为 大 对 象 。 在 提出 的 模型 中 ， 固 有 相关 的 变量 被 分 组 成 一 
个 大 对 象 ， 并 被 表示 为 大 对 象 的 属性 。 例 如 ， 在 地 震 的 情况 下 ， 将 地 震 的 震中 和 震级 作为 
目标 值 ， 或 感 测 到 地 震 的 地 方 的 主观 强度 ， 以 及 发 生 或 感觉 到 地 震 的 日 期 和 时 间 ， 这 些 都 
可 以 被 认为 是 大 对 象 地 震 的 属性 ， 而 在 营销 活动 的 情况 下 ， 产 品 的 名 称 和 声誉 以 及 活动 的 
类 型 和 成 本 则 被 视 为 大 对 象 活动 的 属性 。 两 个 大 对 象 (不 是 变量 ) 之 间 的 影响 关系 被 共 
同 描述 为 对 象 的 变量 (属性 ) 之 间 的 一 个 或 多 个 因果 关系 。 一 旦 构建 了 这 些 模型 ， 在 上 
述 过 程 的 其 余部 分 中 ， 用 户 能 够 基于 以 大 对 象 和 它们 之 间 的 关系 所 描绘 的 全 景 来 分 析 
主题 。 

结构 方程 模型 (Structural Equation Modeling, SEM) 是 引入 潜在 因素 来 描述 变量 之 间 
因果 关系 的 多 变量 分 析 技 术 之 一 。 可 以 将 由 SEM 识别 的 潜在 因素 对 应 于 所 提出 的 框架 中 的 
候选 大 对 象 。 然 而 ， 本 书 提 出 的 分 析 模 型 与 现 有 的 分 析 技 术 是 独立 的 。 换 句 话 说 ， 该 提 法 
是 概念 分 析 的 框架 ， 可 以 与 逻辑 和 操作 分 析 技 术 (如 多 变量 分 析 和 数据 挖掘 ) 共存 。 简 
而 言 之 ,在 框架 中 构建 的 概念 分 析 模 型 将 被 转换 为 逻辑 分 析 模 型 ， 以 供 实际 分 析 方 法 
执行 。 

在 数据 挖掘 的 分 类 任务 中 ， 影 响 关 系 被 描述 为 从 具有 分 类 属性 的 大 对 象 到 具有 类 别 属 
性 的 男 一 大 对 象 的 有 向 关系 。 这 样 的 两 个 大 对 象 在 特殊 情况 下 可 以 是 相同 的 。 在 聚 类 任务 
中 ， 影 响 关 系 被 描述 为 来 自 同 一 对 象 的 一 个 大 对 象 的 自 循环 效应 。 类 似 地 ， 在 关联 规则 挖 
掘 中 ， 影 响 关 系 被 描述 为 从 一 个 大 对 象 到 自身 的 自 循环 效应 。 

本 书 提 出 的 模型 将 用 作 如 下 的 元 分 析 模 型 。 在 对 随后 的 步骤 四 和 步骤 五 中 所 发 生 的 相 
互 作用 进行 详细 分 析 之 前 ， 在 该 阶段 ， 分 析 者 〈 即 专家 用 户 ) 实例 化 该 元 分 析 模 型 ， 并 
通过 综合 使 用 应 用 领域 大 对 象 之 间 的 影响 关系 的 实例 ， 来 构造 特定 的 假设 。 不 言 而 喻 ， 除 
了 所 需 的 规范 和 设置 的 问题 之 外 ， 还 应 使 用 先前 的 理论 和 先 验 观察 来 构造 假设 。 

(3) 数据 采集 

在 步骤 三 中 ， 采 集 在 前 一 步骤 的 假设 构造 中 所 需 分 析 和 确认 的 社交 大 数据 。 社 交 数 据 


pa 
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通过 搜索 或 流 式 传输 ， 通 过 相关 站 点 提供 的 API 收集 ， 并 存储 在 专用 数据 库 或 存储 库 中 。 
由 于 物理 真实 世界 数据 通常 被 预先 收集 并 存储 在 单独 的 数据 库 中 ， 因 此 要 从 数据 库 中 选择 
必要 的 数据 。 数 据 在 经 过 适当 的 清理 和 可 选择 的 转换 之 后 ， 被 导入 专用 数据 库 以 供 分析 。 

i 对 物理 真实 世界 数据 执行 信息 提取 。 例 如 ， 通 过 使 用 诸如 异常 值 检 测 和 突 发 检测 的 
技术 ， 从 数据 中 发 现 作为 用 户 〈 即 分 析 者 ) 的 兴趣 的 显著 事件 。 

ii, 类 似 地 ， 对 社交 数据 执行 信息 提取 。 例 如 ， 通 过 对 自然 语言 内 容 应 用 文本 挖掘 技 
术 ， 并 通过 对 照片 应 用 基于 密度 的 聚 类 来 检测 拍摄 角度 ， 从 数据 中 发 现 用户 〈 即 顾客 ) 
的 兴趣 。 

(4) 假设 验证 

在 步 又 四 和 步骤 五 中 ， 对 收集 的 数据 应 用 特定 的 分 析 方 法 〈 例 如 ， 多 变量 分 析 和 数据 
挖掘 ) ， 以 便 发 现 它们 之 间 的 因果 关系 和 相关 性 。 因 此 ， 验 证 了 主要 的 假设 。 如 果 需 要 的 
话 ， 分 析 人 员 还 可 以 根据 结果 来 修改 假设 ( 即 大 对 象 之 间 的 影响 关系 )。 不 言 而 喻 ,这 两 
个 步骤 不 是 以 单独 的 方式 而 是 以 集成 的 方式 执行 的 。 此 外 ， 如 果 有 的 话 ， 验 证 涉及 异 构 物 
理 真实 世界 数据 的 假设 。 

在 步骤 六 中 ， 完 成 在 先前 步骤 中 构造 的 假设 ， 以 便 可 用 于 交互 的 最 终 描述 。 换 句 话 
说 ， 此 时 完成 的 假设 被 升级 到 应 用 域 中 的 某 些 理论 。 对 假设 的 描述 还 需要 适合 大 数据 应 用 
的 大 规模 可 视 化 技术 ， 大 规模 可 视 化 也 可 以 用 于 获得 构建 假设 本 吴 的 提示 。 

总 之 ， 对 于 大 数据 时 代 的 假设 ， 后面 将 更 详细 地 进行 讨论 。 


2.5 元 分 析 模 型 一 一 概念 层 


整个 分 析 过 程 中 需要 的 元 分 析 模 型 将 在 这 里 进行 详细 描述 。 在 用 于 社交 大 数据 分 析 的 
集成 框架 中 ， 对 应 于 特定 应 用 的 类 的 元 分 析 模 型 被 实例 化 ， 并 且 该 实例 化 模型 被 用 在 最 接 
近 用 户 的 概念 层 的 特定 应 用 的 假设 模型 中 。 虽 然 社交 媒体 不 限于 Twitter, (AFR AES SF 
要 以 Twitter 来 作为 整 本 书 中 的 工作 实例 。 


2.5.1 面向 对 象 的 集成 分 析 模 型 


在 本 书 中 ,我 们 将 介绍 用 于 描述 和 分 析 大 数据 应 用 的 集成 框架 。 与 多 变量 分 析 不 同 的 
是 ， 在 框架 核心 的 集成 模型 中 ， 其 目的 不 是 微观 假设 的 确认 ， 而 是 宏观 假设 的 建构 和 分 
析 ， 以 及 社交 大 数据 应 用 的 高 层级 描述 和 解释 。 实 例 化 的 模型 在 下 文中 称 为 模型 。 

模型 的 一 个 基本 组 件 是 一 个 大 对 象 ， 它 描述 了 相关 的 大 数据 源 和 任务 ( 见 图 2.6)。 
这 样 的 任务 包括 构建 与 大 数据 源 〈 如 数据 挖掘 ) 相关 的 个 体 假 设 , 个 体 假 设 的 验证 ( 例 
如 多 变量 分 析 ) ， 从 自然 语言 数据 的 信息 提取 ， 数 据 监 视 或 感 测 ， 以 及 其 他 特定 应 用 逻辑 
(程序 ) 。 作 为 模型 的 男 一 个 组 成 部 分 ， 则 是 描述 大 数据 对 象 之 间 的 影响 关系 。 它 们 表示 
因果 关系 、 相 关 性 和 伪 相 关 性 ， 还 可 以 附加 任务 以 影响 关系 。 这 些 任务 负责 匹配 异 构 大 数 
据 源 并 检测 它们 之 间 的 各 种 关系 。 

此 模型 的 特征 总 结 归纳 如 下 : 

。 通过 使 用 大 对 象 和 它们 之 间 的 影响 关系 ， 以 高 级 方式 描述 社交 大 数据 应 用 。 

© 描述 大 数据 源 和 任务 的 大 对 象 。 
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大 对 象 关系 任务 


图 2.6 MiPS 模型 


。 指定 一 组 存在 固有 相关 关系 大 数据 的 大 数据 源 。 
© 任务 以 高 级 方式 指定 大 数据 源 的 操作 ， 并 通过 特定 的 分 析 工 具 或 数据 挖掘 库 来 细 


化 执行 。 

。 用 影响 关系 描述 伪 相 关 和 定性 的 因果 关系 ， 以 及 在 高 级 方式 中 的 相关 和 定量 的 因 
果 关 系 。 

。 发 现 影响 关系 的 任务 被 附加 到 关系 中 。 这 种 情况 涉及 至 少 两 个 大 数据 源 。 这 些 任 
务 也 被 细 化 以 便 执行 。 

。 完成 的 模型 解释 了 整个 大 数据 应 用 ， 并 有 助 于 减少 用 户 对 大 数据 利用 关注 的 模 
糊 性 。 


如 上 所 述 ， 大 对 象 、 属 性 和 关系 构成 了 用 于 描述 假设 的 元 素 。 在 步 又 二 中 ,社交 数据 
和 物理 真实 世界 数据 都 被 认为 是 大 对 象 。 所 有 固有 相关 的 变量 被 定义 为 相同 大 对 象 属性 。 
例如 ， 从 物理 真实 世界 数据 到 社交 数据 的 影响 关系 ,被 表示 为 涉及 相应 大 对 象 的 属性 的 一 
个 或 多 个 方程 。 这 样 的 方程 通常 表示 为 大 对 象 属性 之 间 映 射 的 线性 函数 。 如 果 内 部 变量 
( 即 相 同 大 对 象 的 属性 ) 之 间 存 在 关系 ， 则 这 样 的 关系 也 可 以 被 表示 为 涉及 属性 的 等 式 。 
如 果 存 在 影响 关系 的 先决 条 件 ， 则 这 种 先决 条 件 可 以 由 关于 变量 的 逻辑 表达 式 表示 。 公 式 
和 可 选 的 逻辑 表达 式 构 成 关系 。 总 之 ,分 析 人 员 将 具体 的 影响 描述 为 大 对 象 的 属性 之 间 的 
关系 。 请 注意 ， 关 系 通常 被 描述 为 依赖 于 域 的 计算 逻辑 。 

在 分 析 人 员 和 希望 使 用 SEM (结构 方程 模型 ) 作为 多 变量 分 析 的 特定 技术 的 情况 下 ， 
我 们 直观 地 描述 在 此 处 介绍 的 元 分 析 模 型 和 SEM 之 间 的 映射 。 考 虑 下 面 的 例子 ， 即 多 指 
标 模型 。 
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X,=A,,F,+e,: 测量 方程 

X, =A,,F, +e, 

X, =A,F, +e, 

X,=A,F, +e, 

Fy =À pF, +d,: 结构 方程 

让 大 对 象 及 其 属性 对 应 于 SEM PIER, GF, 和 F,， 以 及 与 潜在 因素 相关 联 
的 可 观察 变量 ,例如 对 和 成 。 大 对 象 可 以 具有 表示 它们 自己 值 的 “特殊 属性 ”， 在 这 种 
情况 下 ， 假 定 从 这 些 特殊 属性 〈 即 潜在 变量 ) 的 值 计 算 正 常 属 性 〈 即 观察 变量 ) 的 值 ， 
它们 可 以 共同 表示 为 一 组 测量 方程 ， 对 象 之 间 的 影响 关系 由 对 象 的 特殊 属性 (其 对 应 于 洪 
在 因素 ) 之 间 的 一 组 结构 方程 表示 。 

现在 让 我 们 考虑 一 个 更 简单 的 模型 ， 即 多 重 回归 分 析 (包括 线性 回归 分 析 ) ， 它 比 
SEM 分 析 更 为 普遍 。 在 这 种 情况 下 ， 让 独立 变量 和 因 变 量 对 应 于 大 对 象 的 属性 ， 类 似 于 
SEM。 让 我 们 考虑 下 面 的 模型 。 


X, 三 ?3 下 | +Y, +e, 
式 中 ，y 和 ys, 表示 路 径 系 数 ;e, 表示 误差 。 

这 里 我 们 给 出 一 些 关 于 变量 的 注释 。 对 应 于 影响 变量 (如 XX ) 的 属性 可 由 对 应 于 原 
因 变 量 (UX, MX) 的 属性 表达 式 来 描述 。 在 多 元 回归 分 析 的 情况 下 ， 没 必要 准备 上 述 
SEM 中 为 大 对 象 所 引入 的 特殊 属性 。 如 果 认 识 到 两 个 变量 属于 物理 真实 世界 中 的 不 同 实 
体 ， 即 使 不 存在 其 他 变量 ， 它 们 也 将 被 表示 为 单独 的 大 对 象 的 属性 。 

在 数据 挖 据 的 分 类 任务 中 ， 影 响 关 系 被 描述 为 从 具有 分 类 属性 的 一 个 大 对 象 到 具有 分 
类 属性 的 男 一 个 大 对 象 。 当 然 ， 这些 对 象 在 特殊 情况 下 可 以 是 相同 的 。 期 望 用 户 能 够 在 任 
务 之 前 说 明 经 验 分 类 规则 和 感 兴趣 的 特定 属性 ， 以 便 系统 考虑 它们 。 

在 聚 类 的 情况 下 ,该 关系 被 描述 为 从 目标 大 对 象 到 大 对 象 本 身 的 自 循环 。 由 于 聚 类 的 
结果 是 分 区 子 集 的 和 ， 因 此 该 关系 被 表示 为 “+”。 在 这 种 情况 下 ， 期 竺 用户 〈 即 分 析 师 ) 
可 以 说 明 个 体 对 象 的 组 合 必须 属于 同一 集群 ， 以 及 通过 枚 举 特定 对 象 或 对 象 之 间 的 约束 ， 
个 体 对 象 的 组 合 必须 属于 特定 的 集群 。 

在 关联 规则 的 挖掘 中， 关系 也 以 类 似 的 方式 ， 被 描述 为 从 一 个 大 对 象 到 本 身 的 自 循 
环 。 在 这 种 情况 下 ， 由 于 关联 规则 挖掘 等 价 于 发 现 一 组 条 目 S 的 寡 集 的 元 素 ， 所 以 大 对 象 
之 间 的 关系 可 由 2 表示 。 在 这 种 情况 下 ， 类 似 于 其 他 任务 的 情况 ， 期 望 用 户 不 仅 给 出 感 
兴趣 的 条 目 作为 例子 ， 而 且 还 能 够 阐明 经 验 关 联 规则 。 然 后 ， 系 统 将 能 够 从 描述 的 规则 中 
猜测 兴趣 的 最 小 支持 和 置信 度 。 

我 们 的 综合 分 析 模 型 和 数据 分 析 ， 如 SEM 之 间 的 关系 将 被 描述 。 集 成 模型 的 某 些 部 
分 ( 即 大 对 象 和 连同 附加 的 任务 的 影响 关系 ) 可 以 被 系统 地 转换 成 数据 分 析 工 具 (如 
SEM) ， 并 可 以 在 逻辑 层 进行 分 析 。 然 而 ， 大 对 象 也 可 以 包含 数据 挖掘 工具 应 该 分 析 什 么 ， 
或 者 和 定性 分 析 方法 一 样 的 与 应 用 相关 的 逻辑 。 换 句 话 说， 集成 分 析 模 型 不 能 被 立即 构造 
和 验证 。 综 合 假设 应 该 尽 可 能 多 地 以 自 上 而 下 的 方式 被 构建 ， 然 后 在 逻辑 层 中 通过 适当 的 
工具 进行 转换 和 验证 。 因 此 ， 集 成 分 析 模 型 应 作为 一 个 整体 进行 验证 和 完成 。 
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2.5.2 原始 案例 


作为 用 于 描述 和 验证 假设 的 元 分 析 模 型 ， 可 以 考虑 两 个 或 更 多 个 原始 情况 ， 如 图 2.7 
所 示 。 


图 2.7 案例 


物理 真实 世界 数据 (P) 和 社交 数据 (S) 是 大 对 象 。 由 于 P 和 5 是 类 ， 因 此 在 这 里 
用 大 写字 母 表示 。 此 外 ,“ - > ”表示 影响 关系 。 

。 P->S: 如 果 在 物理 真实 世界 中 发 生 具 有 某 种 影响 的 事件 ， 则 在 社交 媒体 中 进行 
描述 。 

© S- >P: 在 社交 媒体 中 进行 的 描述 会 对 物理 真实 世界 中 的 人 类 行为 产生 什么 影响 ? 

© P->S->PMAS->P->S; 有 或 没有 循环 的 情况 下 。 

© P- >P. 有 或 没有 循环 的 情况 下 。 

e S- >S: 有 或 没有 循环 的 情况 下 。 

假设 实际 上 是 通过 实例 化 类 P 和 5S 并 组 合 实例 来 创建 的 。 尽 管 框架 可 以 描述 足够 一 般 
的 情况 ,但 从 本 书 中 的 业务 应 用 的 角度 来 看 ， 包 括 特别 是 类 S 和 P 的 实例 的 假设 是 有 趣 
的 。 这 里 的 影响 关系 不 仅仅 是 因果 关系 ， 而 是 其 扩展 的 概念 。 换 句 话说 ,虽然 因果 关系 适 
合 于 数据 变量 之 间 关 系 的 微观 分 析 ， 但 影响 关系 适合 于 大 对 象 之 间 关 系 的 宏观 分 析 。 
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2.6 假设 的 生成 和 验证 一 一 逻辑 层 


在 框架 的 概念 层 中 所 描述 的 综合 假设 被 转换 成 逻辑 层 的 假设 ， 并 通过 数据 分 析 和 数据 
挖掘 的 工具 来 执行 假设 的 生成 和 验证 。 本 节 我 们 将 简要 解释 多 变量 分 析 和 数据 挖掘 。 


2.6.1 变量 分 析 


在 概念 层 描 述 的 假设 中 ， 对 应 于 多 变量 分 析 中 的 微观 假设 的 部 分 ， 被 转换 成 可 以 通过 特 
定数 据 分析 工 具 分 析 的 部 分 。 预 测 作为 多 变量 分 析 的 主要 功能 之 一 ， 将 在 后 面 单独 解释 。 


2.6.2 数据 挖掘 


在 概念 层 所 描述 的 假设 中 ， 应 该 被 映射 到 数据 挖掘 的 每 个 任务 中 的 假设 的 部 分 ， 被 转 
换 成 用 于 具体 挖掘 工具 的 部 分 以 生成 和 验证 它们 。 一 些 数据 挖掘 的 基本 算法 将 在 后 面 单独 
详细 解释 。 

此 外 ， 数 据 挖 据 利 用 的 是 用 户 〈 即 数据 分 析 者 ) 为 数据 挖掘 中 的 每 个 任务 指定 的 、 
以 表明 他 们 兴趣 的 示例 ， 以 便 生成 感 兴趣 的 假设 。 

更 具体 地 ， 由 用 户 为 分 类 任务 指定 的 属性 ， 可 以 用 于 创建 包含 它们 的 分 类 器 。 此 外 ， 
指定 的 分 类 规则 可 以 用 于 数据 挖掘 中 的 集成 学 习 。 作 为 结果 ， 创 建 了 反映 用 户 〈 即 分 析 
者 ) 兴趣 的 假设 。 如 果 用 户 描述 了 任何 实例 对 象 的 特定 组 合 或 同一 集群 内 对 象 的 特定 约 
束 ， 则 在 执行 聚 类 任务 时 应 考虑 这 样 的 规范 ， 并 且 因 此 创建 反映 用 户 兴趣 的 假设 。 如 果 用 
户 将 关注 条 目 展示 为 关联 规则 挖掘 的 示例 ， 则 应 基于 优先 级 来 生成 包含 条 目的 关联 规则 。 
如 果 将 特定 关联 规则 指定 为 一 段 经 验 知识 ， 则 可 以 使 用 规则 的 置信 度 和 支持 来 估计 用 户 期 
望 的 最 小 支持 和 置信 度 。 

总 而 言 之 ,期 望 借助 用 户 对 这 些 示例 的 说 明 ， 使 得 每 个 任务 不 仅 能 够 引出 用 户 感 兴趣 
的 假设 ， 而 且 还 能 够 缩小 假设 的 搜索 空间 ， 并 因此 减少 处 理 时 间 。 


2.6.3 发 现 和 识别 影响 


首先 在 步 又 四 中 ， 必 须 检 测 从 物理 真实 世界 数据 到 社交 数据 的 所 有 影响 的 存在 。 可 以 
通过 观察 社交 媒体 数据 的 动态 状态 来 发 现 影响 的 存在 。 以 Twitter 为 例 ， 可 以 通过 注意 以 下 
动态 来 检测 影响 的 存在 。 

© 时 间 序 列 中 的 爆发 或 Tweets 的 时 间 线 ， 即 时 间 线 上 的 每 单位 时 间 的 Tweets 数量 的 
快速 变化 。 

© 网 络 结构 的 快速 变化 ， 例 如 用 户 关注 关系 和 转发 关系 。 

除了 Twitter 之 外 的 社交 媒体 也 将 在 这 里 描述 。 让 我 们 考虑 Flickr 的 照片 共享 服务 。 如 
果 在 某 个 区 域 中 观察 到 每 单位 网 格 的 照片 数量 ( 即 照 片 密度 ) 大 于 指定 闵 值 ， 则 可 以 发 
现 流 行 的 地 标 。 此 外 ， 如 果 考 虑 密度 的 暂时 变化 ， 则 可 以 发 现 最 近 开 始 引 起 注意 的 所 谓 的 
出 现 热门 地 点 [Shirai et al. 2013 ] 。 

如 果 以 这 种 方式 确认 了 任何 影响 的 存在 ， 则 作为 下 一 步 又 ， 需 要 识别 影响 社交 数据 的 
物理 真实 世界 数据 。 如 果 信 息 提 取 技 术 被 应 用 在 时 间 线 上 的 一 包 Tweets 的 内 容 ， 则 对 应 于 
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物理 真实 世界 数据 的 异 构 信 息 源 将 会 被 自动 识别 。 这 样 的 异 构 信 息 源 包含 诸如 维基 百科 和 
开放 获取 的 期 刊 等 开放 获取 媒体 、 诸 如 企业 数据 的 有 限 获 取 期 刊 ， 以 及 诸如 实践 体验 的 个 
人 资料 ， 它 们 基本 上 对 应 于 主题 。 一 般 来 说 ， 频 繁 的 主题 就 集中 在 其 中 。 

也 可 以 使 用 社交 标签 。 社 交 媒 体 的 用 户 将 社交 标签 添加 到 社交 数据 中 。 因 此 ， 而 在 
Twitter 中 ， 用 户 定义 的 标签 包括 散 列 标签 ， 而 在 Flickr 中 ， 则 是 除了 EXIF 之 外 用 户 所 定 
义 的 标签 。 作 为 拍摄 条 件 ，EXIF 数据 将 会 被 自动 添加 到 照片 中 。 由 于 社交 标签 在 许多 情 
况 下 能 够 显 式 地 表示 主题 ， 因 此 ， 可 以 通过 分 析 它 们 来 快速 发 现 与 这 样 的 主题 相对 应 的 异 
构 信 息 源 。 然 而 ， 在 一 些 情况 下 ,不同 的 主题 会 具有 相同 的 标签 ， 并 且 在 其 他 情况 下 ， 相 
同 的 标签 也 会 具有 时 变 的 含义 。 这 些 问题 应 该 在 社交 标签 的 分 析 期 间 解 决 。 

例如 ， #jishin© 和 #earthquake 实际 上 都 是 用 来 表示 地 震 发 生 后 的 “日 本 3.11 地 震 ”。 
而 在 有 关 时 间 的 处 理 过 程 中 ， 只 有 的 ishin 被 主要 使 用 。 


2.6.4 影响 的 定量 测量 


发 现 和 识别 影响 之 后 ， 从 社交 数据 到 物理 真实 世界 的 数据 影响 (步骤 四 ) ， 以 及 从 后 
者 到 前 者 的 影响 (PRE) 必须 定量 测量 。 为 此 ， 需 要 从 一 组 社交 数据 中 (如 Tweets), 
找 出 那些 很 重要 并 且 与 话题 相关 的 文章 。 

首先 ， 可 以 想到 使 用 情绪 极 性 字典 [Taboada et al. 2011 ] ， 它 适用 于 已 经 预先 构造 的 
业务 主题 。 通 过 加 入 从 正 到 负 的 一 定 取 值 范围 的 极 性 值 来 获得 情绪 极 性 字典 中 的 每 个 词 的 
条 目 。 根 据 应 用 域 的 不 同 ， 文 章 的 重要 性 是 由 其 内 容 中 所 包含 的 词 的 极 性 确定 的 。 

例如 ， 确 定 新 产品 的 活动 成 功 与 否 ， 就 需要 充分 分 析 一 组 文章 全 方位 的 情感 极 性 。 主 
要 是 分 析 有 负面 情绪 极 性 值 的 文章 ， 分 析 投 诉 和 产品 的 改进 意见 。 然 而 ,在 这 种 情况 下 ， 
并 不 是 总 能 收集 到 足够 数量 的 文章 来 进行 定量 分 析 。 因 此 ， 在 这 种 情况 下 ， 有 必要 分 析 个 
别 文 章 ， 尽 可 能 客观 地 使 用 定性 分 析 的 方法 。 

基本 上 以 这 种 方式 ， 需 要 对 物理 真实 世界 的 数据 和 社交 数据 之 间 的 影响 进行 定量 分 
析 。 如 前 面 已 经 提 到 的 ， 当 然 ， 如 果 需 要 的 话 也 可 用 定性 分 析 的 技术 。 

在 步骤 四 中 ， 有 必要 评估 社交 媒体 的 文章 (如 Tweets) 与 特定 主题 的 相关 程度 、 预 测 
主题 的 准确 性 ， 以 及 对 其 他 用 户 的 影响 。 

例如 ， 可 以 使 用 下 列 措施 进行 此 类 评价 ， 分 别 如 下 : 

© 关于 该 主题 文章 的 相关 性 和 专业 程度 

。 贡献 者 过 去 的 文章 对 主题 的 预测 准确 性 

。 网 络 的 大 小 由 文章 的 贡献 者 的 被 关注 者 -关注 者 关系 组 成 

我 们 可 以 通过 文本 挖掘 、 图 形 挖掘 和 多 变量 分 析 这 些 措施 来 评 佑 文章。 如果 通 过 监测 
新 产生 的 文章 ， 发 现 了 与 过 去 有 影响 的 文章 相似 的 文章 ， 则 可 以 通过 分 析 文 章 来 进行 关于 
商业 的 各 种 预测 。 

与 分 析 过 程 中 的 步骤 四 和 步骤 五 一 样 ， 对 于 数据 挖掘 算法 的 性 能 ， 需 要 相对 于 大 数据 
大 小 的 可 伸缩 性 。 作 为 这 样 的 方法 之 一 ， 可 以 通过 用 于 分 布 式 并 行 计 算 的 平台 (诸如 Ma- 
pReduce) 来 扩展 基于 常规 单个 处 理 絮 的 数据 挖掘 算法 ， 该 平台 可 以 在 诸如 Hadoop 的 分 布 
式 处 理 平台 上 工作 。 关 于 Hadoop 和 MapReduce 我 们 将 在 下 面 进行 简要 解释 。 


O jishin 是 地 震 一 词 在 日 语 中 的 罗马 音 。 一 一 译 者 注 
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2.7 兴趣 回顾 一 一 互动 挖掘 


到 目前 为 止 ， 我 们 只 讨论 了 数据 分 析 师 的 兴趣 。 除 了 他 们 之 外 还 有 其 他 兴趣 。 不 用 
说 ， 客 户 的 兴趣 非常 重要 ， 这 将 在 本 小 方 中 解 释 。 

一 般 地 ， 如 果 客 户 实际 购买 了 产品 或 服务 ， 数 据 挖掘 就 会 处 理 那 些 记 录 在 数据 库 中 的 
交易 。 分 析 交 易 数 据 可 以 发 现 经常 购 买 的 产品 或 服务 ， 尤 其 是 回头 客 。 但 是 交易 挖掘 却 不 
能 获得 那些 可 能 对 产品 或 服务 感 兴趣 ， 但 还 没有 购买 任何 产品 或 服务 的 客户 的 信息 。 换 名 
话说 ， 不 可 能 发 现 未 来 有 可 能 是 新 客户 的 潜在 客户 。 

然而 ， 在 物理 真实 世界 中 ， 客 户 会 看 到 或 触摸 在 货架 中 展示 的 他 们 所 感 兴趣 的 物品 。 
如 果 可 以 的 话 ， 他 们 会 试看 和 试听 感 兴趣 的 视频 或 音频 。 如 果 可 能 的 话 ， 他 们 甚至 可 以 闻 
到 或 品尝 感 兴趣 的 物品 。 即 使 感 兴趣 的 物品 由 于 一 些 原因 不 可 用 ， 客 户 也 会 去 谈论 它们 或 
收集 关于 它们 的 信息 。 


可 以 考虑 这 些 行为 ， 作 为 客户 和 系统 ( 即 信息 系统 ) 之 间 相 互 作用 的 一 部 分 。 这 些 
相互 作用 表明 了 潜在 客户 的 兴趣 点 ， 他 们 要 么 购买 感 兴趣 的 物品 ， 要 么 由 于 某 些 原因 
AE 


通过 设置 在 商店 内 部 的 摄像 机 和 传感器 ， 这 些 交 互 的 部 分 分 别 作为 视频 和 传感器 数据 
被 记录 在 数据 库 或 储存 库 中 。 客 户 使 用 IC 卡 以 获得 产品 和 服务 ， 并 在 设施 和 交通 工具 里 
留 下 签 和 人/ 签 出 的 日 志 信息 ， 这 些 信息 便 构 成 了 物理 真实 世界 中 的 大 数据 。 这 些 数据 包括 
交互 或 兴趣 的 积累 ， 而 客户 并 不 会 感知 到 。 

另 一 方面 ， 在 网 络 世 界 里 ， 用 户 会 把 感 兴趣 的 物品 〈 例 如 产品 或 服务 ) 的 照片 或 视 
频 发 布 到 诸如 Flickr 和 YouTube 的 社交 媒体 上 ， 使 它们 被 记录 下 来 。 有 些 用 户 则 会 在 自己 
的 博客 或 微 博 ， 如 Facebook 和 Twitter 的 文章 中 提 到 感 兴 趣 的 物品 。 其 他 用 户 收集 感 兴 
的 物品 的 信息 ， 通 过 搜索 网 站 ( 如 通用 网 页 、 博 客 、 微 博 、 问 答 网 站 和 比较 购物 网 站 ) 这 
些 交 互 全 都 会 被 系统 数据 库 中 的 日 志 记 录 下 来 。 和 那些 在 物理 真实 世界 中 的 交互 不 同 ， 在 
网 络 世 界 中 的 这 种 交互 伴随 着 用 户 的 有 意 行为 。 

分 析 物 理 真 实 世 界 中 的 交互 作用 ， 可 以 了 解 客户 感 兴趣 的 物品 。 尽 管 有 这 样 的 分 析 ， 
但 是 客户 会 对 哪些 方面 的 物品 感 兴趣 ， 他 们 为 什么 买 这 些 物 品 ， 或 为 什么 他 们 没有 买 ， 仍 
然 是 未 知 的 。 另 一 方面 ， 在 社交 数据 中 ， 一 些 用 户 明 确 地 描述 了 他 们 对 物品 的 哪些 方面 感 
兴趣 ， 是 什么 原因 导致 他 们 购买 或 不 购买 。 因 此 ， 如 果 能 从 异 构 数 据 源 中 提取 用 户 的 兴 
点 ， 发 现 购买 或 不 购买 物品 的 原因 ， 这 将 有 可 能 获得 潜在 客户 。 在 一 般 情 况 下 ， 如 果 从 蜡 
构 大 数据 源 中 提取 用 户 的 兴趣 点 ， 以 及 它们 之 间 的 匹配 〈 如 它们 之 间 兴 趣 点 的 相似 性 或 等 
同 ) ,或 者 它们 之 间 的 联系 (如 从 一 个 兴趣 到 男 一 个 的 因果 关系 ,或 兴趣 间 的 相关 性 ) 被 
发 现 ， 预 计 将 产生 更 多 有 价值 的 信息 。 在 本 书 中 ,交易 数据 的 传统 挖掘 称 为 交易 挖 气 ， 交 
互 数据 的 新 挖掘 称 为 交互 挖掘 ( 见 图 2.8)。 

分 析 师 将 对 上 述 两 种 类 型 的 兴趣 作 几 点 评论 。 虽 然 分 析 师 的 兴趣 由 分 析 人 员 自 己 提 
供 ， 但 是 客户 的 兴趣 应 该 由 系统 发 现 和 分 析 。 在 特殊 情况 下 ， 两 者 可 以 彼此 一 致 。 换 句 话 
说 ， 可 以 将 交互 挖掘 比喻 为 一 段 旅 程 ， 则 用 户 的 兴趣 就 可 以 作为 目标 进行 搜寻 ， 而 分 析 师 
的 兴趣 则 可 以 作为 里 程 碑 进行 指导 。 相 比 之 下 ,传统 的 交易 挖掘 可 以 说 是 ,没有 任何 兴 
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购买 物品 传统 对 象 


对 回 购 者 进行 分 析 
无 历史 数据 


VARA MEL 


| en) 


2.8 交互 挖掘 


的 参与 ， 一 味 地 寻求 模型 构造 目标 。 
2.8 分 布 式 并 行 计 算 框架 


用 于 分 析 社 交大 数据 的 计算 框架 由 多 层 组 成 。 每 层 使 用 的 技术 和 工具 包含 以 下 内 容 : 

概念 层 : 这 层 提供 了 本 章 介绍 的 大 对 象 模型 。 

HE, 这 层 包 含 分 析 工 具 ， 如 多 元 分 析 、 数 据 挖 气 、 机 器 学 习 和 自然 语言 处 理 。 其 
中 ， 本 书 的 第 二 部 分 会 分 别 介绍 数据 挖掘 技术 、 作 为 自然 语言 处 理 之 一 的 文本 挖掘 技术 和 
多 元 分 析 ， 机 器 学 习 只 在 和 数据 挖掘 有 关 的 部 分 被 简单 地 提 到 。 

物理 层 : 这 层 由 软件 和 硬件 组 成 。 例 如 ， 对 于 数据 管理 的 关系 数据 库 和 NoSQL 数据 
库 ， 以 及 分 布 式 并 行 计 算 的 Hadoop 和 MapReduce 等 都 是 软件 。 关 于 这 些 软件 的 概要 将 在 
本 节 的 其 余部 分 简要 介绍 。 而 硬件 是 计算 机 集群 经 常 使 用 的 ， 由 于 它们 超出 了 本 书 的 范 
围 ， 因 此 这 里 将 不 再 介绍 。 


2.8.1 NoSQL 


据 报 道 [ Vogels 2007] ， 亚 马 逊 的 查询 处 理 65% 依赖 于 主键 ( 即 记 录 标 识 符 ) ， 因 此 
它们 是 基于 关键 字 的 机 制 来 进行 数据 访问 的 ， 下 面 我 们 将 说 明 键 值 存 储 [ Decandia et al. 
2007]， 它 是 当前 由 互联 网 巨头 如 谷歌 和 亚马逊 使 用 的 数据 管理 设备 。 

具体 键 值 存储 包括 亚马逊 的 DynamoDB [ DynamoDB 2014] 、 谷 歌 的 BigTable [Chang et al. 
2006] 和 HBase [HBase 2014] 的 Hadoop 项 目 ， 这 是 一 个 开源 软件 ， 以 及 由 Facebook FF 
发 的 Cassandra [ Cassandra 2014] ， 它 后 来 也 成 为 开源 软件 。 

通常 ， 在 给 定 关键 字数 据 的 情况 下 ， 键 值 存储 适合 于 搜索 与 关键 字数 据 相 关联 的 非 关 
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键 字 数据 (属性 值 )。 下 面 将 解释 其 中 一 种 方法 。 
首先 ， 将 散 列 函 数 (也 叫 哈 希 函数 ) 应 用 于 存储 数据 的 节点 。 根 据 散 列 函数 的 结果 ， 
节点 被 映射 到 环 状 网 络 上 的 点 〈 即 逻辑 位 置 ) ( 见 图 2.9)。 


图 2.9 一 致 性 散 列 


在 存储 数据 时 ， 将 相同 的 散 列 函数 应 用 于 每 个 数据 的 关键 字 值 ， 然 后 将 数据 类 似 地 映 
射 到 环 上 的 点 。 每 个 数据 通过 环 顺 时 针 旋 转 并 存储 在 最 近 的 节点 中 。 虽 然 数据 的 移动 取决 
于 节点 的 添加 和 删除 ， 但 是 影响 的 范围 是 可 以 定位 的 。 因 此 ， 对 于 数据 接 入 ， 我 们 只 需要 
通过 将 散 列 函数 应 用 于 关键 字 值 来 搜索 最 近 的 节点 。 这 种 接 和 结构 称 为 一 致 性 散 列 ， 它 也 
被 各 种 目的 的 P2P 系统 (如 文件 共享 ) 所 采用 。 

对 于 大 规模 的 数据 访问 而 言 ， 通 过 指定 非 关 键 字数 据 上 的 条 件 或 关键 字数 据 上 的 不 等 
式 条 件 来 从 键 值 存储 中 搜索 数据 是 低 效 的 。 这 是 因为 有 必要 检查 每 个 数据 的 条 件 。 

为 了 通过 除 关键 字 之 外 的 属性 条 件 高 效 地 搜索 数据 ， 还 有 一 些 典型 的 方法 ， 例 如 索引 
属性 值 。 然 而 ， 如 果 使 用 索引 ， 则 索引 的 种 类 可 能 在 数量 上 增加 ， 并 且 整 个 索引 的 大 小 可 
能 是 原始 数据 的 数 十 倍 。 或 者 ， 存 在 通过 组 合 一 个 或 多 个 属性 的 值 来 构建 索引 键 的 方法 。 
在 这 种 情况 下 ， 如 果 每 个 属性 的 值 的 变化 大 ， 则 可 能 依次 引起 组 合 爆炸 。 

目前 ， 以 关系 数据 库 管理 系统 (RDBMS) 或 SQL 作为 搜索 接口 ， 是 存储 和 搜索 大 数 
据 的 主流 机 制 。 它 们 提供 了 能 够 有 效 地 执行 比 关键 字 值 搜索 更 复杂 的 查询 的 访问 方法 ， 包 
括 选 择 和 连接 操作 ( 即 通 过 两 个 或 多 个 表 的 键 进行 比较 ) 。 

男 一 方面 ， 如 果 用 户 对 键 值 存储 执行 相同 的 操作 ， 则 会 出 现 问 题 。 用 户 必须 对 与 复杂 
查询 相对 应 的 逻辑 进行 编程 。 作 为 很 有 希望 解决 这 个 问题 的 方案 ,必须 构 建 一 种 功能 丰富 
的 查询 处 理 设施 来 作为 键 值 存储 上 的 中 间 件 。 因 此 ， 整 体 上 ， 刍 值 存储 显然 类 似 于 常规 数 
据 库 管理 系统 。 然 而 ， 由 于 要 处 理 复杂 查询 ， 且 底层 键 值 存储 本 身 的 处 理 能 力 很 差 ， 因 
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此 ， 不 可 能 解决 性 能 问题 。 

由 于 其 简单 的 结构 ， 键 值 存储 可 以 提供 比 常规 关系 数据 库 更 多 的 可 扩展 性 。 此 外 ， 键 
值 存储 已 经 尽 可 能 地 用 于 有 特定 前 途 的 应 用 〈 即 Web 服务 )。 男 一 方面 ， 关 系数 据 库 已 经 
被 开发 为 通用 数据 库 管 理 系 统 ， 旨 在 灵活 和 有 效 地 支持 各 种 数据 库 的 存储 、 搜 索 和 更 新 。 
可 以 说 ， 至 少 在 用 于 高 级 搜索 和 高 可 靠 性 数据 管理 的 设备 中 ， 关 系数 据 库 或 SQL 接口 已 被 
过 度 设计 并 用 于 满足 当前 Web 服务 的 需求 。 


2.8.2 ”MapReduce 一 一 一 种 并 行 分 布 式 计算 的 机 制 


一 般 来 说 ， 经 常 被 重复 使 用 的 算法 类 型 称 为 设计 模式 。MapReduce [Dean et al. 2004 ] 
被 认为 是 一 种 设计 模式 ， 它 可 以 通过 直接 的 方式 执行 向 外 扩展 来 高 效 地 处 理 任 务 。 例 如 ， 
人 们 浏览 网 站 ， 机 顺便 开始 进行 搜索 引擎 的 抓 取 ， 当 他 们 访问 网 站 时 ， 会 在 Web 服务 器 
中 留 下 访问 日 志 数据 。 因 此 ， 有 必要 从 所 记录 的 访问 日 志 数 据 中 将 每 个 用 户 的 会 话 〈( 即 一 
系列 连续 的 页 面 访问 ) 提取 出 来 ， 并 将 它们 存储 在 数据 库 中 以 供 进一步 分 析 。 通 常 ， 这 样 
的 任务 被 称 为 提取 、 变 换 和 加 载 (Extract - Transform - Load，ETL ) 。 要 从 搜索 引擎 抓 取 的 
页 面 中 提取 页 面 、 搜 索 项 和 链接 ， 并 将 其 存储 在 存储 库 中 或 通过 使 用 此 类 数据 创建 索引 ， 
也 被 视 为 ETL 任务 。 

MapReduce 适用 于 执行 此 类 ETL 任务 的 应 用 。 它 将 任务 划分 为 子 任务 ， 并 以 并 行 分 布 
方式 处 理 它们 。 总 之 ， 子 任务 被 映射 到 两 个 或 更 多 个 服务 器 上 以 便 处 理 ， 并 且 每 个 结果 被 
混 洗 并 聚合 成 最 终结 果 (JILE 2.10), MapReduce 适用 于 只 有 每 个 子 任务 的 数据 或 参数 是 
分 开 的 情况 ， 尽 管 它们 的 处 理 方 法 完全 相同 。 图 2. 10 中 展示 了 使 用 MapReduce 计算 整个 
页 面 集合 中 搜索 项 频率 的 例子 。 首 先 ， 执 行 Map 阶段 ， 并 且 重 新 排列 ( 即 混 洗 ) 输出 ， 
使 得 它们 适合 于 Reduce 阶段 的 输入 。 换 名 话说 ， 对 于 应 用 而 言 ， 其 相似 性 ( 即 在 这 种 情 
况 下 处 理 的 一 致 性 ) 和 分 集 ( 即 处 理 的 数据 和 参数 的 差异 ) 是 固有 的 ，MapReduce 正 是 利 
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图 2. 10 MapReduce 的 一 个 例子 


另 一 方面 ， 有 一 项 关于 MapReduce 性 能 的 研究 报告 [Stonebraker et al. 2010 ] ， 麻 省 理 
工学 院 的 Stonebraker 通过 使 用 由 100 个 节点 组 成 的 计算 机 集群 执行 了 一 些 不 同 的 任务 ， 并 
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比较 了 Hadoop 上 的 MapReduce 和 最 新 的 并 行 RDBMS (特别 是 面 回 列 的 Vertica 和 面向 行 的 
DBMS -X) 的 性 能 。 并 行 RDBMS 在 诸如 类 Grep 的 并 行 搜索 字符 串 和 Web 日 志 分 析 的 任 
务 中 多 次 胜 过 MapReduce。 前 者 在 复杂 的 查询 处 理 中 胜 过 后 者 10 倍 以 上 。 

在 MapReduce FU RDBMS 之 间 ， 对 数据 的 容错 能 力 的 响应 也 是 不 同 的 。 如 果 在 RDBMS 
中 发 生 错 误 ， 它 会 立即 尝试 从 错误 状态 中 恢复 。 而 另 一 方面 ， 即 使 发 生 了 错误 ，MapRe- 
duce 也 仍然 会 保持 状态 ， 并 继续 当前 进程 。 换 名 话说 ， MapReduce 采取 的 立场 是 ， 数 据 只 
有 在 最 终 需 要 ( 称 为 最 终 一 致 ) 时 才 是 一 致 的 。 

CAP 定理 [Brewer 2000] 指出 ， 分布 式 环境 中 的 应 用 系统 不 能 同时 满足 三 个 特性 ， 
BH: 一 致 性 (Consistency) 、 可 用 性 ( Availability) 和 分 区 容 限 ( Partition tolerance ) 。 然 
而 ， 它 们 中 的 任何 两 个 可 以 同时 满足 。Web 服务 高 度 重 视 可 用 性 和 分 区 容 限 ， 因 此 选择 了 
MapReduce 所 文 持 的 最 终 一 致 性 概念 。 

HBase 强调 CAP 中 的 可 用 性 和 分 区 容 限 。 另 一 方面 ， 当 前 的 DBMS 更 重视 一 致 性 和 可 
用 性 。 根 据 Stonebraker 提出 的 观点 ， 虽 然 并 行 RDBMS 适合 处 理 结构 化 数据 和 数据 经 常 更 
新 的 应 用 中 的 复杂 查询 ， 但 MapReduce 适用 于 以 下 的 应 用 : 

。 ETL 系统 

© 涉及 复杂 分 析 的 数据 挖掘 

© XML 数据 处 理 

此 外 ， 与 RDBMS 相 比 ，MapReduce 是 一 个 即 用 型 、 低 成 本 可 得 的 功能 强大 的 工具 。 
换 句 话说 ,并行 RDBMS 和 MapReduce 所 用 的 场景 不 同 。 一 般 来 说 ， 生 态 系统 是 基于 技术 
的 社交 系统 ， 这 些 系统 是 自我 组 织 的 ， 通 过 成 员 之 间 的 互动 来 维持 ， 如 自然 生态 系统 一 
样 。 并 行 RDBMS 和 MapReduce 在 不 同 的 生态 系统 中 发 展 。 然 而 ， 这 两 个 生态 系统 可 能 相 
互 影响 ， 并 像 自然 生态 系统 一 样 发 展 成 为 一 个 新 的 生态 系统 。 例 如 ， 最 近 谷 歌 对 数据 库 系 
统 Fl 所 做 的 研究 [Shute et al. 2013] 就 则 在 平衡 CAP 的 所 有 方面 。 


2.8.3 Hadoop 


Hadoop [ Hadoop 2014] 是 一 个 用 于 计算 机 集群 上 的 分 布 式 处 理 的 开源 软件 ， 由 两 个 或 更 
多 服务 器 组 成 。Hadoop 对 应 于 谷歌 的 分 布 式 文件 系统 GFS (Google File System) 的 开源 版 本 ， 
以 及 使 用 GES 的 谷歌 的 分 布 式 处 理 模式 Hadoop。 目 前 ，Hadoop 是 Apache 的 项 目 之 一 。 

Hadoop 包括 一 个 称 为 HDFS (Hadoop 分 布 式 文件 系统 ) 的 分 布 式 文件 系统 ， 它 相当 
于 GFS, MapReduce 和 Hadoop Common 作为 公共 库 ( 见 图 2. 11)。 

由 于 我 们 之 前 已 经 解释 了 MapReduce， 因 此 这 里 仅 简 要 解释 HDFS。 计 算 机 系统 是 由 
两 个 或 更 多 服务 器 组 成 的 集群 〈 即 现实 中 的 机 架 ) 的 集合 〈 见 图 2. 12 ) 。 数 据 被 分 成 块 。 
虽然 原始 数据 的 一 个 块 存 储 在 由 Hadoop 确定 的 服务 器 中 ， 但 原始 数据 的 副本 却 被 存储 在 
除了 用 于 同时 保存 原始 数据 的 服务 器 的 机 架 之 外 的 两 个 其 他 服务 器 〈 默 认 ) 中 。 

虽然 这 样 安排 数据 的 目的 是 提高 可 用 性 ， 但 还 有 另 一 个 目的 那 就 是 改进 并 行 性 。 

名 为 名 称 节点 (NameNode) MAYS FAIRS 484 HE HDFS 中 的 数据 排列 。NameNode 服务 
器 执行 数据 文件 的 所 有 元 数据 的 保存 。 元 数据 驻 留 在 用 于 高 速 访 问 的 核心 存储 器 上 。 
此 ，NameNode 的 服务 器 应 该 比 其 他 服务 器 更 可 靠 。 

可 以 预期 的 是 ， 如 果 在 两 个 或 两 个 以 上 的 服务 器 中 存在 相同 的 数据 副本 ， 对 于 这 样 的 
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任务 跟踪 器 


图 2.11 Hadoop 


图 2.12 HDFS 
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问题 ， 候 选 方案 的 数量 增加 ， 则 并 行 的 任务 被 划分 成 多 个 子 任务 进行 处 理 。 如 果 向 Hadoop 
提供 任务 ， 则 Hadoop 就 会 通过 查询 NameNode ， 并 将 执行 的 程序 发 
送 到 存储 数据 的 服务 器 中 。 这 是 因为 发 送 程序 的 通信 成 本 通常 要 比 发 送 数据 低 。 

通常 ， 程 序 基本 上 对 个 体 数 据 执 行 操作 。 但 是 ，Hadoop 基本 上 处 理 一 组 数据 。Pig 和 
Hive 是 两 种 不 同类 型 的 编程 环境 ， 它 们 的 创建 取决 于 如 何 将 一 个 集合 的 概念 引入 到 编程 
中 。Pig 是 基于 数据 流 而 不 是 简单 的 一 组 数据 的 概念 ，Pig 对 一 组 数据 的 每 个 元 素 重 复 执行 
相同 的 操作 。 男 一 方面 ，Hive 对 一 组 数据 (如 RDBMS 的 SQL) 执行 操作 。 可 以 这 样 认 
为 ， 与 如 前 所 述 的 RDBMS 相 比 ，Hive 是 用 于 弥补 Hadoop 中 的 一 个 弱点 而 努力 的 结果 。 然 
而 ，Hive 在 内 部 顺序 地 访问 数据 的 事实 却 并 没有 改变 。 
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第 3 剖 大 数据 时 代 的 假设 


大 数据 时 代 ， 对 于 我 们 而 言 ， 构 建 假设 比 以 前 更 加 困难 。 然 而 ， 假 设 的 作用 却 越 来 越 
重要 。 本 章 首先 痔 述 了 大 数据 时 代 假设 的 本 质 ， 然 后 介绍 了 经 典 的 推理 形式 ， 如 归纳 、 演 
绎 和 类 比 ， 它 们 将 作为 构建 假设 的 基本 技术 进行 讨论 。 随 后 ， 我 们 会 对 不 明 推 论 式 作为 合 
情 推 理 ， 因 果 关 系 ， 以 及 相关 性 作为 与 推理 有 关 的 基本 概念 进行 总 结 。 


3.1 什么 是 假设 


这 里 将 描述 大 数据 和 假设 之 间 的 关系 。 在 大 数据 时 代 ， 提 前 做 出 一 个 有 可 能 的 假设 ， 
对 我 们 而 言 变 得 更 加 重要 和 困难 。 一 般 来 说 ,假设 是 关于 某 种 现象 的 观察 值 的 临时 解释 。 
在 更 狭义 的 意义 上 ， 它 是 一 种 可 观测 原因 和 结果 变量 之 间 的 预测 关系 。 此 外 ,假设 必须 是 
可 验证 的 。 然 而 ， 对 假设 的 验证 并 不 等 同 于 对 假设 的 证 明 。 即 使 具有 一 个 相反 的 例子 ， 也 
能 证 明 假设 是 不 正确 的 。 另 一 方面 ， 很 难 证 明 假设 是 完全 正确 或 不 正确 的 。 换 名 话说， 对 
假设 的 验证 是 在 相关 现象 发 生 之 后 ， 定 量 地 评估 假设 是 否 可 接受 。 

首先 ,假设 是 必要 的 吗 ? 事实 上 ， 不 预先 构建 假设 ， 也 可 以 获得 某 种 类 型 的 预测 ， 主 
要 是 通过 考虑 表示 所 有 可 能 的 变量 的 数 千 维 的 特征 向 量 ， 并 将 这 样 的 向 量 馈送 到 可 在 Ha- 
doop 上 运行 的 机 器 学 习 或 数据 分 析 库 中 完成 的 〈Hadoop 是 一 种 并 行 软件 平台 ， 可 在 集群 
计算 机 上 工作 ) 。 

基因 组 研究 人 员 报 告 了 一 种 无 假设 方法 成 功 的 案例 。 例 如 ， 通 过 将 关联 研究 应 用 于 整 
个 基因 组 的 技术 ， 人 们 已 经 发 现 : 特定 基因 可 以 通过 与 咖啡 的 相互 作用 来 调节 由 金森 病 证 
状 发 展 的 事实 [Hamza et al. 2011] 。 

然而 ， 仅 通过 上 述 方 法 获得 的 预测 ， 还 不 能 解释 用 于 预测 的 任何 机 制 或 验证 。 如 果 这 
样 的 解释 困难 ， 则 用 户 不 会 有 信心 轻易 地 采用 这 种 机 制作 为 一 定 的 预测 。 因 此 ， 即 使 目前 
处 于 大 数据 时 代 ， 最 好 还 是 在 数据 分 析 或 数据 挖掘 中 事先 构建 一 个 假设 。 

一 般 来 说 ， 假 设 也 有 生命 周期 ( 见 图 3. 1 ) 。 在 定义 完 问 题 之 后 ， 通 过 对 问题 的 预 分 
析 来 构建 一 个 假设 〈 假 设 构建 ) 。 在 收集 与 假设 构建 相关 的 数据 之 后 ， 将 一 些 方法 (如 统 
计 分 析 和 实验 ) 应 用 到 数据 中 ， 从 而 验证 假设 (假设 验证 ) 。 如 果 作为 验证 的 结果 ， 假 设 
被 接受 的 话 ， 那 么 也 就 是 说 ， 提 升 为 理论 〈 形 成 理论 ) 。 和 否则 ， 被 拒绝 的 假设 要 么 被 丢弃 ， 
要 么 在 另 一 个 生命 周期 中 被 修正 。 

这 里 将 解释 一 下 在 数据 控 气 中 假设 所 处 的 位 置 。 简 单 地 说 ， 数 据 挖掘 包 括 基 于 收集 的 
数据 生成 模型 〈 即 模式 ) 的 任务 ， 这 就 等 价 于 假设 。 数 据 挖掘 中 所 使 用 的 技术 通常 称 为 
机 器 学 习 。 分 类 是 一 种 有 监督 技术 ， 它 使 用 部 分 样本 来 构建 假设 的 训练 数据 ， 其 他 样本 则 
作为 验证 假设 的 测试 数据 ， 该 假设 的 类 别 ( 即 分 类 类 别 ) 是 预先 已 知 的 。 关 联 规则 分 析 
和 聚 类 分 析 是 无 监督 技术 ,它们 可 以 在 不 使 用 训练 数据 或 提前 构造 任何 假设 的 情况 下 
执行 。 
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到 3.1 假设 的 生命 周 共 


然而 ， 在 数据 挖掘 的 每 个 任务 之 前 由 用 户 构 建 假设 的 例子 ,或 者 由 用 户 提 供 的 数据 挖 
据 任 务 的 假设 构造 提示 ， 都 可 以 用 来 指导 在 数据 挖 气 中 选择 合适 的 技术 或 参数 ， 而 这 对 于 
获得 更 好 的 模型 来 说 ， 是 有 很 大 帮助 的 。 例 如 ， 事 先 压缩 用 户 所 认为 的 分 类 中 重要 的 属 
性 ， 相 当 于 为 数据 挖掘 任务 的 假设 构建 给 出 一 些 提示 ， 再 来 学 习 分 类 规则 或 其 他 模型 。 对 
于 关联 规则 ， 关 于 频繁 项 目的 支持 值 、 置 信 度 值 、 用 户 的 兴趣 度 ， 可 以 通过 分 析 用 户 基于 
他 们 的 经 验 所 构建 的 频繁 项 集 (或 规则 ) 进行 推测。 此 外 ， 在 聚 类 中 ， 指 定 一 组 数据 最 
终 属 于 同一 个 集群 的 约束 ， 或 者 指定 它们 最 终 属 于 单独 集群 的 约束 ， 相 当 于 给 出 了 假设 构 
建 的 某 种 指导 。 

在 数据 挖 据 中 ,假设 ( 即 模 型 ) 是 否 可 接受 主要 是 通过 精度 测量 来 判断 的 。 同 时 ， 
假设 的 价值 则 是 通过 兴趣 水 平 来 评估 的 ， 也 就 是 用 户 对 某 一 领域 的 兴趣 。 可 以 说 ， 数 据 控 
据 之 前 的 假设 或 给 予 数 据 挖掘 的 提示 ， 在 茶 种 意义 上 反映 了 在 该 领域 中 的 兴趣 水 平 。 因 
此 ， 由 用 户 提 前 提供 的 假设 和 提示 也 是 有 效 的 ， 以 便 测量 由 数据 挖 气 做 出 的 假设 的 兴趣 水 
平 。 领 域 专家 的 经 验 规 则 和 期 望 通常 是 通过 无 监督 技术 来 进行 分 析 的 ， 例 如 关联 规则 分 析 
和 数据 挖掘 中 的 聚 类 分 析 。 本 书 将 会 涉及 对 社交 数据 的 分 析 ， 通 过 关注 人 们 的 兴趣 ( 如 照 
片 的 拍摄 方向 和 微 博 中 所 引用 的 术语 ) ， 可 以 做 出 更 有 价值 的 发 现 的 实例 。 

在 科学 界 ， 假 设 较 少 被 引用 。 即 使 是 看 似 偶然 的 科学 发 现 也 需要 来 自 于 对 相关 现象 尖 
锐 而 直觉 (或 灵感 ) 的 仔细 观察 和 深刻 辨别 ， 以 及 用 于 验证 假设 的 精细 实验 来 构建 假设 。 
如 果 新 的 假设 能 够 比 旧 的 更 准确 地 解释 现象 ， 则 旧 的 假设 将 被 新 的 假设 所 取代 。 例 如 ， 随 
着 由 粒子 构成 的 物质 世界 逐渐 被 揭示 ， 解 释 粒 子 之 间 相 互 作用 的 理论 已 经 从 牛顿 力学 变 为 
量子 力学 。 

如 有 果 出 现 不 能 由 现 有 假设 解释 的 现象 ， 则 该 假设 将 被 按 弃 。 这 样 ， 验 证 的 假设 使 人 类 
的 科学 知识 比 以 往 任何 时 候 都 丰富 。 事 实 上 ， 有 些 观点 认为 ， 只 有 通过 数据 密集 计算 才能 
进行 科学 研究 [Hey 2009] 。 这 些 观点 在 所 有 科学 领域 都 不 一 定 是 对 的 。 也 就 是 说 ， 科 学 
本 质 上 具有 由 假设 〈 即 假设 驱动 ) 所 引导 的 特征 。 

一 般 来 说 ， 假 设 必 须 满 足以 下 特性 : 

。 假设 能 够 解释 尽 可 能 多 的 先前 事件 的 例子 〈 通 用 的 ) 。 为 构建 一 个 假设 , 这 是 首先 
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必须 考虑 的 。 

© 假设 必须 尽 可 能 简单 (简约 )。 换 名 话说 ， 对 用 户 而 言 ， 假 设 必须 是 可 理解 的 。 

。 假设 能 够 预测 未 来 将 会 发 生 什么 现象 (可 预测 的 )。 这 个 特征 与 假设 的 有 用 性 
相关 。 

。 假设 必须 是 可 验证 的 (可 测试 的 ) 。 

在 本 书 中 ， 作 者 想 在 以 上 清单 中 再 加 入 如 下 特征 : 

。 一 个 假设 ， 无 论 是 科学 的 还 是 商业 的 ， 都 必须 反映 当代 某 一 领域 相关 从 业者 的 兴 


3.2 数据 采样 


对 于 大 数据 时 代 而 言 ， 在 某 些 方面 ， 数 据 挖掘 可 以 比 以 往 更 容易 获得 足够 数量 的 数 
据 ， 这 可 能 是 一 个 好 消息 。 我 们 会 在 下 面 对 这 种 情况 进行 更 详细 的 解释 。 

为 了 筹划 假设 验证 ， 数 据 分 析 师 遵循 以 下 过 程 ， 而 在 大 数据 时 代 之 前 ， 这 需要 花费 很 
长 时 间 。 
通常 由 人 们 预先 给 出 整个 样本 数据 的 类 别 ， 然 后 将 其 划分 为 用 于 假设 构建 的 部 分 〈 即 
训练 集 ) ， 以 及 用 于 假设 准确 性 测量 的 其 他 部 分 〈 即 测试 集 或 验证 集 )。 最 后 ， 基 于 训练 
集 来 构建 假设 ， 并 且 使 用 测试 集 来 测量 假设 的 准确 性 。 

然而 ， 如 果 样 本 数据 的 总 数 太 小 的 话 ， 则 不 能 完全 获得 用 于 假设 构建 的 足够 多 的 数 
据 。 此 外 ， 假 设 的 精度 极 有 可 能 将 受到 少量 样本 的 过 度 影响 。 

为 了 解决 这 个 问题 ， 人 们 发 明了 一 种 称 为 大 折 交 叉 验 证 的 方法 。 在 大 折 交 叉 验 证 法 
中 ， 样 本 数据 被 预先 划分 为 左 块 ， 其 中 , k-1 块 用 于 假设 的 构建 ， 剩 余 的 一 块 则 用 于 假设 
的 验证 。 通 过 交换 用 于 假设 构建 的 数据 并 计算 每 次 通过 的 准确 度 ， 进 行 大 次 实验 〈 即 数据 
分 析 或 数据 挖掘 )。 计 算 准确 度 的 平均 值 以 验证 假设 。 

随 着 大 数据 时 代数 据 量 的 自然 增加 ， 我 们 将 会 更 容易 获得 足以 进行 假设 构建 的 数据 。 
也 就 是 说 ， 样 本 大 数据 被 简单 地 划分 为 两 个 ， 其 中 一 个 用 于 构建 假设 ， 另 一 个 则 用 于 验证 
假设 。 我 们 所 需要 做 的 只 是 交换 这 些 数据 的 作用 ， 并 再 次 执行 数据 分 析 或 数据 挖掘 。 也 就 
是 说 ， 在 理论 上 ， 总 是 可 以 执行 二 重 交 又 验证 方法 。 

在 大 数据 时 代 ， 可 能 仍 需要 准备 预先 已 知 类 别 的 数据 作为 训练 集 ， 以 及 有 监督 学 习 ， 
如 分 类 中 的 数据 作为 验证 集 。 在 这 种 情况 下 ， 数 据 集 通常 应 由 人 工 帮 助 准备 。 然 而 ， 在 大 
数据 时 代 ， 由 于 数据 量 太 大 ， 这 样 的 工作 会 变 得 相当 困难 。 当 然 ， 这 种 问题 也 存在 解决 方 
案 [Sheng et al. 2008] 。 也 就 是 说 ， 使 用 人 力 策 略 有 时 可 能 是 有 效 的 ， 如 亚马逊 的 土耳其 
机 器 人 [ Amazon Mechanical Turk 2014 ] 。 


3.3 假设 验证 


如 前 所 述 ， 自 从 我 们 进入 大 数据 时 代 以 来 ， 可 用 的 样本 数量 增加 了 。 然 而 ， 大 数据 时 
代 并 不 一 定 只 带 来 好 消息 。 

这 里 将 考虑 假设 验证 。 一 个 验证 假设 如 下 所 示 (例如 ,7 检验 ): 

1. 待 验证 的 假设 的 对 立 面 称 为 备 择 假 设 ， 它 被 构造 成 一 个 零 假 设 。 
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2. 确定 显著 性 水 平 a。 

3. 基于 样本 数据 ， 计 算 统 计 值 和 p 值 。 

4. WER p 值 小 于 指定 的 显著 性 水 平 ， 则 有 显著 性 差异 。 因 此 ， 零 假设 被 按 弃 ， 从 而 接 
受 备 择 假设 。 

5 否则， 就 判断 两 个 假设 之 间 没 有 显著 性 差异 。 

p 值 表示 一 种 概率 (显著 性 概率 ) ， 它 是 在 零 假 设 为 真 的 前 提 下 ， 根 据 样 本 数据 所 计 
算 的 值 在 更 极端 情况 下 的 概率 。p 值 可 以 通过 一 个 检验 统计 量 〈 例 如 了 检验 中 的 了 值 ) 计 
算出 来 。 男 一 方面 ， 显 著 性 水 平 是 当 一 个 零 假设 为 真 时 ， 挨 弃 它 概率 的 容忍 极限 。 显 著 性 
水 平 是 一 个 判断 标准 ,分析 师 可 以 选择 这 些 值 ， 如 0.1、0.05 和 0.01。 

我 们 将 在 这 里 重点 关注 p 值 。 随 着 样本 数 的 增加 ，p 值 趋 于 降低 。 也 就 是 说 ， 如 果 样 
本 数量 增加 ， 则 可 以 相应 地 降低 显著 性 水 平 。 换 句 话 说 ， 从 纯 统 计 学 意义 上 理解 ， 备 择 假 
设 变 得 更 加 可 能 。 这 也 可 以 称 为 相关 系数 。 也 就 是 说 ， 假 设 相 关系 数 的 值 相同 ， 随 着 数据 
量 的 增加 ， 显 著 性 水 平 可 以 降低 。 

因为 在 大 数据 时 代数 据 量 已 经 增加 了 ， 所 以 假设 的 显著 性 水 平 自然 也 会 减低 。 然 而 ， 
不 能 过 分 强调 这 些 ， 因 为 我 们 并 不 能 保证 可 以 自动 构建 更 重要 和 更 有 趣 的 假设 。 简 而 言 
之 ， 在 分 析 之 前 ， 需 要 将 兴趣 程度 明确 表达 为 某 种 假设 。 

另外 ， 诸 如 Cohen's d 效应 值 ， 目 前 已 经 取代 p 值 广 为 使 用 ， 因 为 它 不 容易 受 样 品 数 
量 的 影响 [Kline 2011], 


3.4 假设 构建 


在 本 节 中 ,我 们 将 从 各 种 推理 和 因果 关系 分 析 的 角度 直观 地 描述 用 于 假设 构建 的 
提示 。 

一 般 来 说 ， 数 学 中 命题 的 推理 形式 包括 归纳 和 推导 。 然 而 ， 请 注意 ， 这 里 描述 的 命题 
不 局 限于 数学 中 ， 它 是 普遍 为 真 的 ， 即 在 任何 地 方 和 任何 时 间 。 众 所 周知 ， 在 过 于 普通 的 
命题 或 共同 命题 的 情况 下 ， 任 务 的 兴趣 水 平 可 能 会 降低 。 本 书 也 会 处 理 真 实 依赖 于 情境 的 
命题 ， 换 句 话说 ， 并 不 总 是 真 的 ， 即 以 某 种 置信 和 度 (例如 概率 ) 为 真 。 对 于 实际 应 用 而 
言 ， 不 但 需要 数学 上 的 严格 推理 ( 如 归纳 、 推 论 )， 而 且 还 需要 合理 的 推理 和 类 比 。 

下 面 我 们 将 从 构建 假设 的 角度 来 解释 这 些 推理 形式 。 


3.4.1 归纳 法 


我 们 通常 通过 归纳 个 体 观察 样本) o, 来 创建 命题 。 这 种 形式 的 推理 称 为 归纳 推理 。 
下 面 是 一 个 简单 的 归纳 推理 实例 。 
p(o,), plo), =, plo) (如 果 全 部 成 立 ) 
(然后 导出 以 下 ) 
p(o)( 即 普遍 成 立 ) 
其 中 ，。 表示 可 观察 数据 集合 的 每 个 元 素 o, 上 的 变量 ; P(o) 表示 变量 。 所 满足 的 命题 p。 
例如 ， 让 我 们 考虑 一 个 关于 整数 的 数学 命题 [Polya 2004] 它 可 以 表述 如 下 ， 


hey 
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Ej p(1) 
142? = 23) p(2) 
razas = (24) p(3) 


p(n) 


如 果 将 命题 p(n) 以 几何 的 形式 表示 ， 它 的 意思 就 是 方程 左边 的 边 长 为 i (=1，…， 
n) 的 立方 体 的 体积 之 和 ， 等 于 右边 的 边 长 为 i (=1，…，, n) 的 正方 形 的 面积 之 和 (ILE 
3.2) 。 然 而 ， 这 是 一 个 基于 归纳 的 理想 假设 的 例子 ， 它 也 可 以 通过 数学 归纳 来 精确 地 证 明 。 


图 3.2 几何 解释 


归纳 是 一 种 推理 形式 ， 可 以 直接 使 用 ， 以 构建 来 自 个 体 观 测 的 普遍 假设 。 当 然 ， 归 纳 
假设 也 可 以 用 来 解释 现 有 的 观测 数据 。 此 外 ， 重 要 的 是 ， 这 样 的 假设 也 能 够 解释 新 引入 的 
数据 。 

3.4.2 推理 

究竟 是 推论 [Jaynes 2003] 适合 于 构建 假设 ， 还 是 经 
建 假设 ?通常 ， 在 严格 的 演绎 推理 中 ， 需 要 考虑 以 下 命题 
pq 
FH, poa 意味 着 假设 命题 p 为 真 ， 则 命题 g 为 真 。 因 此 ， 可 以 说 p 意味 着 gq。 当 上 面 的 
命题 成 立时 ， 如 果 p 是 正确 的 ， 则 可 以 推断 出 gq 也 是 正确 的 。 这 可 以 表示 如 下 : 

(p=q) Hp WE 


常用 于 数学 的 演绎 推理 适合 于 构 


现在 以 一 个 关于 气候 的 命题 为 例 ， 以 下 4 和 B 被 分 别 视 为 p 和 g 的 具体 命题 。 
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令 4= {厄尔尼诺 /拉尼娜 -南方 振荡 ”发生 | ，B =| 日 本 有 一 个 温暖 的 冬天 | 

因此 ， 如 果 厄 尔 尼 诺 /拉尼娜 - 南方 振荡 发 生 了 ， 那 么 日 本 将 会 有 一 个 温暖 的 冬天 。 

上 述 推理 称 为 三 段 论 。 当 基于 演绎 推理 构建 假设 时 ， 理 想 的 情况 是 通过 结合 已 公认 的 
假设 〈 即 理论 ) 来 证 明 新 的 假设 是 正确 的 。 事 实 上 ， 在 数学 中 这 总 是 可 能 的 。 然 而 ,在 其 
他 领域 中 ， 对 于 通过 演绎 推理 产生 的 假设 以 及 由 归纳 推理 产生 的 假设 ， 都 必须 使 用 真实 数 
据 来 验证 过 程 。 

如 果 假 设 可 以 转换 为 可 以 实现 假设 的 另 一 形式 (例如 模拟 程序 ) ， 则 还 存在 将 由 模拟 
程序 计算 的 结果 与 实际 观测 的 数据 进行 比较 并 间接 验证 假设 的 方法 。 模 拟 程序 也 可 用 于 以 
该 方法 预测 未 来 的 结果 。 

目前 ， 在 一 般 的 演绎 推理 中 ， 相 对 命题 "一 p 不 一 定 会 因为 命题 p 一 4 为 真 而 为 真 。 也 
就 是 说 ， 尽 管 后 面 的 命题 为 真 ，4 也 是 为 真 ,但 在 严格 的 演绎 推理 中 ， 并 不 能 推断 出 p 为 
真 。 通 常 ， 通 过 变换 上 述 三 段 式 进行 的 以 下 推理 是 不 成 立 的 : 

(P=4) Hq XE 


假设 与 上 面 的 实例 相同 ,将 4 作为 p 的 具体 命题 ，B 作为 9 的 具体 命题 。 那 么 ， 即 使 
日 本 有 一 个 温 暧 的 冬天 (8B) ， 也 不 能 说 明 厄 尔 尼 诺 /拉尼娜 -南方 振荡 发 生 了 (4)。 


3.4.3 可 信 推 理 


另 一 方面 ， 有 时 可 以 认为 在 物理 现实 世界 中 的 某 个 领域 中 的 命题 是 可 信 的 〈 即 数量 上 
真实 的 ) 。 换 名 话说 ， 它 对 应 于 给 定 一 个 命题 的 定量 可 靠 性 或 可 信和 性 。 这 里 将 解释 可 信 推 
HE [ Jaynes 2003 | 。 

我 们 将 再 次 考虑 以 下 三 段 论 ， 假设 4 和 8B 与 先前 实例 中 的 命题 相同 。 

(A=B) HAHAH 

B 为 真 

这 里 假设 上 述 命 题 的 可 靠 性 可 由 下 面 的 条 件 概 率 [Jaynes 2003] 表示 ， 下 面 我 们 继续 讨论 。 

P(BI(A=SB)A) 

为 了 确定 可 靠 性 的 值 ， 我 们 将 首先 考虑 以 下 关于 条 件 概 率 (也 称 为 贝 叶 斯 定理 ) 的 
同 义 反复 ， 其 值 总 是 为 真 。 

P(XYIZ) =P(XIYZ)P(YIZ) =P(YIXZ)P(XIZ) 

@X=A, 了 = 有 以 及 Z=(4 一 8)， 则 上 式 可 以 变换 如 下 : 

P(BI(A=B)A) =P(BIA>B)P(AIB(A>B))/P(AIA=B) 
显然 ,在 这 种 情况 下 ， 该 表达 式 的 值 等 于 1。 这 是 因为 上 式 中 的 分 母 通 常 可 以 做 如 下 
变换 : 并 且 在 这 种 情况 下 新 公式 中 的 下 画 线 部 分 等 于 0。 

P(A|A>B) =P(A(B+7 BIAS>B) =P(ABIAS>B) +P(A7 BIAS>B) 

= P(BIA=>B)P(AIB( ASB) ) +P(- BIASB)P(AI7 B( ASB) ) 


”厄尔尼诺 /拉尼娜 -南方 振荡 是 发 生 在 横 跨 赤 道 附近 太平 洋 的 一 种 准 周 期 气候 类 型 ,大 约 每 5 年 发 生 一 
次 。 一 一 译 者 注 
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接 下 来 , 我 们 将 再 次 考虑 以 下 从 三 段 论 修改 的 情况 。 

(A>B)B BAH 

4 为 真 

当然 ,这 在 严格 的 演绎 推理 中 是 不 正确 的 。 然 而 ,如 下 所 示 , 可 信 推 理 认为 4 更 可 能 
为 真 。 
(A>B)H BAH 
4 更 可 能 为 真 
此 时 的 置信 度 由 概率 P(41(4 一 B)B) 给 出 。 为 了 确定 该 值 ， 我 们 将 再 次 使 用 上 述 同 义 
反复 〈( 贝 叶 斯 定理 ) ， 具 体 如 下 : 

P(AIB(A=B)) = P(AIASB) P(BIA(A=>B) )/P(BIAS>B) 

关注 上 式 中 的 分 母 ,下 在 假设 4 一 有 下 所 成 立 的 概率 越 小 ,4 成 立 的 概率 就 越 大 。 换 
句 话 说， 如果 发 生 罕见 事件 (如 B)， 则 4 的 似 然 性 增加 。 如 果 P(BIA(AS>B)) =1 HP 
(BIA>B) 和 1， 则 由 上 述 公式 可 以 得 出 : 

P(A|B(A=>B) ) >P(AIA=B) 

类 似 地 ， 三 段 论 可 以 扩展 如 下 : 

(A=B) HA 为 假 

B 不 太 可 能 为 真 

也 就 是 说 ， 在 这 种 情况 下 ， 如 果 在 假设 下 证 明 A 为 假 ， 则 可 以 将 其 解释 为 B 的 似 然 性 
降低 ( 即 更 不 可 能 )。 类 似 地 ， 通 过 使 用 贝 叶 斯 定理 可 以 计算 出 置信 和 度 P(BIl- A(A=>B) ) 
42-F P(BIAS>B)P(7 AIB(AS>B))/P(73 AIAS>B), 此外， 也 可 以 表示 为 P(Bl- A(AS 
B))<P(BIA=B), 


3.4.4 不 明 推 论 式 


如 果 在 ASB 的 假设 下 观察 到 ， 则 4 可 以 被 推定 为 最 可 能 的 原因 之 一 。 这 是 上 面 描 
述 的 一 种 可 信 推 理 ， 这 种 推定 被 称 为 不 明 推 论 式 [ abduction - SEP 2014 ] 。 在 不 明 推 论 式 
中 ， 构 建 假设 的 能 力 很 重要 。 因 此 ， 我 们 使 用 贝 叶 斯 定理 考虑 以 下 概率 : 

P(A=>BIB) =P(A=B)P(BIA=B)/P(B) 
推理 的 合理 性 可 以 通过 该 概率 来 定量 测量 。 也 就 是 说 ， 一 般 而 言 ， 当 结果 ( 即 证 据 ) 
B 被 观察 到 时 ， 在 所 有 的 推理 中 ， 作 为 导致 B 的 原因 的 4 是 所 考虑 的 假设 中 概率 最 高 的 。 

因此 ， 当 为 推理 创建 假设 时 ， 有 时 值得 考虑 从 相反 的 方向 使 用 某 个 命题 。 这 点 是 很 
要 的 ,特别 是 对 于 在 探索 性 数据 分 析 中 构建 假设 。 


3.4.5 相关 性 


假设 现象 C 和 C, 经 常 在 某 一 场景 中 同时 或 与 时 间 顺 序 无 关 地 发 生 ， 如 果 发 生 C 或 
C,， 则 认为 男 一 个 也 可 能 发 生 。 在 这 种 情况 下 ，C, AC, 之 间 可 能 存在 一 些 相关 性 [Kline 
2011]。 也 就 是 说 ， 在 这 种 情况 下 〈 即 高 的 共 现 ) ， 一 个 假设 和 其 对 立 假设 会 被 同时 考虑 。 


pap 
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C=C, 

C,=C, 

lan, &C, = | 归纳 } ，C, = | HERE). Ala, We poss ae A eC 
页 中 使 用 。 然 而 ， 仅 仅 观察 上 述 现象 同 现 的 频率 不 足以 分 析 相 关 性 。 如 果 C, (或 C,) 通常 
随 着 G(R C) 的 增加 而 增加 ， 则 认为 C, 和 C, 之 间 存 在 正 相 关 。 另 一 方面 ， 如 果 在 不 同 
的 情况 下 ，C,( 或 C,) 更 频繁 地 出 现 ， 而 C,( 或 C1) 却 不 太 经 常 出 现 ， 则 在 这 种 情况 下 ， 
称 它们 之 间 存 在 负 相 关 。 此 外 ， 在 既 不 存在 正 相 关 也 不 存在 负 相关 的 情况 下 ， 可 以 说 不 存 
在 任何 相关 。 如 果 同 时 出 现 多 次 ， 但 没有 相关 性 ， 这 意味 着 只 是 发 生 巧 合 。 

相关 性 通常 是 通过 计算 如 余弦 度量 和 Jaccard 系数 的 相关 系数 来 检验 的 ， 后 面 我 们 将 
会 阐述 。 正 相关 、 负 相关 和 不 相关 是 由 相关 系数 的 值 来 判断 的 。 

例如 ， 假 设 赋值 C, 如 下 : 

C= | 归纳 | ，C, = | 推理 | ，C, = | 演绎 | 

在 C AIC, 之 间 (如 | 归纳 推理 |) WRC, AC, 之 间 (如 | 演绎 推理 |) 更 有 可 能 
出 现 正 相 关 。 男 一 方面 ， 尽 管 C, 和 C，( 如 {归纳 演绎 } ) 同时 出 现 多 次 ， 但 它们 之 间 可 
能 存在 负 相 关 。 


3.4.6 因果 关系 


对 于 前 面 已 经 提 到 的 演绎 推理 ， 让 我 们 考虑 存在 严格 的 因果 关系 的 情况 ， 比 如 作为 结 
RWI BET C。 在 本 书 中 ， 这 种 情况 可 以 表示 如 下 : 

B>C 

Gli, AB M C 如 下 所 示 (ILR 3.3): 

B= | 日 本 有 个 温暖 的 冬天 | 

C= | 日 本 冬季 服装 的 销售 量 下 降 | 

也 就 是 说 ， 如 果 日 本 是 个 暖冬 (B), 那么 日 本 冬季 服装 的 销售 量 就 会 下 降 CC). 

在 纯 科学 中 ， 即 使 B 和 C 之 间 有 相关 ,或 者 它们 同时 发 生 或 连续 发 生 ， 也 不 会 声称 B 
和 C 之 间 有 任何 因果 关系 。 事 实 上 ， 虽然 这 是 罕见 的 , 但 和 C 也 完全 有 可 能 同时 发 生 。 


图 3.3 和 常见 的 原因 


此 外 ， 一 个 原因 可 能 产生 两 个 或 多 个 结果 。 在 这 种 情况 下 ， 如 果 换 句 话 说， 导致 C 和 
D 的 常见 原因 是 ， 那 么 这 种 情况 可 以 描述 如 下 : 

B>C 

BD 

也 就 是 说 ， 尽 管 在 这 种 情况 下 C AD 之 间 显 然 是 正 相 关 ， 但 是 C 和 DD 之 间 没 有 直接 
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的 相关 性 。 在 这 种 情况 下 的 关系 被 称 为 伪 相 关 ， 它 与 真相 关 不 同 。 

例如 ， 继 续 使 用 上 述 示例 中 的 B 和 C， 并 将 D 设置 如 下 ( 见 图 3.4): 

D= | 日 本 冬季 运动 用 品 的 销售 量 下 降 } 

B>C All B>D 都 成 立 。 

虽然 销售 冬季 服装 (C) 和 冬季 运动 用 品 (D) 的 销售 似乎 正 相 关 ， 但 没有 明确 的 直 
接 依赖 关系 。 

当 原 因 B 不 明 或 B 本 质 上 是 潜在 的 时 ( 即 B 不 能 被 观察 到 时 ),，B 和 C 以 及 B AND 的 相 
关 性 不 能 被 直接 测量 ， 此 时 有 条 件 和 部 分 地 使 用 C 和 DD 之 间 的 关系 有 时 会 被 认为 是 有 效 的 。 

此 外 ,在 4 和 C 之 间 存 在 现象 MM， 并且 M 是 4 的 结果 和 C 的 原因 ， 那 么 这 种 关系 通 
常 可 以 表示 如 下 ( 见 图 3.4): 

A>M>3C 


图 3.4 传递 者 


在 这 种 情况 下 ,在 4 AM UR MA C 之 间 存 在 严格 的 因果 关系 。 此 外 ，4 会 通过 伯 
影响 到 C， 最 后 一 个 条 件 是 特别 重要 的 。 通 常 称 M 为 传递 者 。 传 递 者 的 作用 称 为 传递 ， 并 
且 可 以 说 4 对 C 的 影响 是 间接 的 。 

HMA A, BAC 按 原样 使 用 , © M=B。 如 果 发 生 了 厄尔尼诺 /拉尼娜 - 南方 振荡 
(A), ABA (A) 导致 的 结果 为 日 本 有 个 温暖 的 冬天 (8B)， 然 后 是 冬季 服装 的 销售 量 下 
降 (C)， 因 为 它 是 B 所 导致 的 结果 。 

请 注意 ,4 可 能 会 间接 和 直接 地 影响 C， 这 取决 于 具体 的 应 用 。 

此 外 ， 两 个 或 多 个 原因 可 能 与 一 个 结果 有 关 。 在 这 种 情况 下 ， 它 可 能 是 所 有 的 原因 与 
结果 相关 ， 可 以 采用 多 元 线性 回归 分 析 或 更 一 般 的 技术 如 SEM (结构 方程 模型 ) [Kline 
2011 ] 。 男 外 ， 因 果 关 系 的 一 部 分 ( 即 前 提 条 件 )， 可 以 与 逻辑 运算 符 ( 即 与 、 或 、 非 ) 
相关 联 的 条 件 表达 式 结合 进行 描述 。 

这 里 ， 因 果 关 系 将 会 被 严格 定义 ( 即 在 一 定 意义 上 的 经 典 ) 。 

如 果 满 足以 下 条 件 ， 则 认为 在 4 和 了 之 间 存 在 因果 关系 (4 一 B) : 

(条 件 一 ) 4 暂时 先 于 B, 

(条 件 二 ) 4 和 B 之 间 有 任何 相关 性 。 
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(IFZ) 4 和 B 之 间 没 有 传递 者 。 

(条 件 四 ) 如 果 没 有 A4， 那 么 B 不 会 发 生 。 

(条 件 五 ) 关系 ASB 普遍 存在 。 

我 们 可 以 从 现代 的 观点 来 看 ， 对 上 述 因果 关系 中 的 每 个 条 件 做 出 一 些 评论 。 

在 条 件 一 中 ,根据 应 用 领域 的 不 同 ,，4 在 B 之 前 发 生 的 时 间 延 迟 或 时 间 尺 度 是 不 同 
的 。 在 自然 现象 中 ， 它 可 以 短 于 一 秒 ， 或 可 以 100 年 为 单位 来 测量 。 例 如 ,厄尔尼诺 / 拉 
尼 娜 -南方 振荡 对 日 本 温暖 的 冬天 的 影响 却 超过 了 半年 。 

还 可 以 考虑 反馈 回路 的 相互 作用 ， 比 如 说 4 导致 B， 继 而 B 导致 4。 在 这 种 情况 下 ， 
当 相 互 作 用 被 看 作 一 个 整体 时 ， 似 乎 4 和 B 同时 发 生 。 此 外 ， 在 4 暂时 不 变 或 稳定 的 情况 
下 ， 可 以 认为 4 与 优先 条 件 一 致 。 

在 条 件 二 中 ， 考 虑 真相 关 而 不 是 伪 相 关 。 因 此 ，B 依赖 于 A, 

与 条 件 三 相关 的 是 ， 它 有 时 也 有 必要 考虑 因果 结构 ， 包 括 传递 因果 关系 ， 也 就 是 说 ， 
这 里 是 严格 因果 关系 的 组 合 。 例 如 ， 将 考虑 4 一 5 一 C。 如 果 当 下 作为 4 和 C 之 间 的 传递 者 
时 ， 也 将 直接 接受 ASC 的 影响 ， 因 果 结 构 可 以 被 认为 是 直接 和 间接 效应 〈 即 传递 效应 ) 
组 成 的 综合 因果 关系 。 

条 件 四 排除 了 4 不 发 生 和 B 发 生 的 情况 。 在 这 种 情况 下 ， 可 以 认为 是 男 一 个 原因 U 导 
致 了 结果 B 的 发 生 。 在 该 情况 下 需要 检查 所 谓 的 反 事实 依赖 性 。 也 就 是 说 ， 如 果 4 不 发 
生 ， 则 有 必要 验证 B 也 不 发 生 。 将 随机 选择 的 样本 数据 分 为 两 个 组 ， 一 个 组 为 4， 男 一 个 
为 非 4， 并 且 通 过 使 用 这 两 个 组 的 实验 来 验证 假设 ， 是 该 反 事实 依赖 性 的 一 种 测试 方法 。 
WR USET B, WU AB 之 间 存 在 严格 的 因果 关系 。 当 然 ， 如 果 存 在 两 个 或 多 个 原因 ， 
则 必须 定量 考虑 每 个 原因 的 贡献 。 

在 条 件 五 中 ， 从 因果 关系 实用 性 的 观点 来 看 ， 有 必要 根据 应 用 重新 定义 通用 的 含义 。 
在 这 种 情况 下 ， 它 等 同 于 将 微观 普遍 性 考虑 为 在 特定 时 间 和 空间 下 的 情况 。 例 如 ，B 声称 
是 在 日 本 ， 而 不 是 在 全 球 ， 有 一 个 温暖 的 冬天 。 


3.4.7 类 比 


在 本 节 中 ， 类 比 [Polya 1990] 将 被 解释 为 一 种 推理 形式 。 在 类 比 推理 中 ， 让 我 们 考 
虑 这 样 的 情况 ， 其 中 创建 的 命题 7 在 结构 上 类 似 于 现 有 命题 S。 在 了 和 $ 彼此 对 应 部 分 的 
比较 中 ,7 中 还 未 知 但 是 5 中 已 知 的 可 以 由 此 预测 出 来 。 根 据 这 个 过 程 来 考虑 命题 被 称 为 
类 比 。 

例如 ， 我 们 将 考虑 关于 物理 力学 的 假设 。 根 据 粒 子 物 理学 ， 基 本 粒子 之 间 的 力 (或 相 
互 作用 ) 分 为 四 种 : 电磁 力 、 弱 力 、 强 力 和 引力 。 
已 经 被 证 明 的 是 ， 前 三 种 力 ( 即 电 磁力 、 弱 力 、 强 力 ) 是 现 有 粒子 起 到 了 中 介 作 用 。 
然后 ， 将 产生 一 个 新 的 假设 如 下 。 

电磁 力 : 光子 

IJ: W, ZEA 

强力 : 胶 子 

引力 : 假想 的 玻 色 子 称 为 引力 子 (假设 )。 

也 就 是 说 ， 四 种 力 具 有 相似 的 结构 ， 粒 子 和 它们 之 间 的 关系 〈 即 相互 作用 ) 构成 了 


T 
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力 的 假设 的 组 成 部 分 。 然 而 ， 在 引力 作用 下 ， 作 为 组 成 部 分 的 粒子 直到 现在 还 未 知 。 如 在 
其 他 三 种 力 中 ， 和 暂时 称 为 引力 子 的 粒子 被 预测 作为 其 组 成 部 分 存在 于 引力 中 ， 并 且 作 为 中 
介 实 现 引力 。 一 些 理论 推测 ， 引 力 子 不 是 粒子 而 是 弦 。 

顺便 说 一 句 ， 通 过 分 析 在 欧洲 核子 研究 中 心 使 用 粒子 加 速 器 超过 1 二 万 亿 次 的 质子 - 
质子 碰撞 实验 所 做 的 结果 ， 人 们 已 经 以 很 高 的 概率 证 实 了 一 个 希 格 斯 玻 色 子 的 存在 ， 它 一 
直 被 预测 为 宇宙 中 所 有 物质 的 质量 之 源 。 此 后 ， 希 格 斯 玻 色 子 的 存在 经 过 了 更 多 的 实验 数 
据 验证 ， 两 位 曾 独立 预言 它 存 在 的 物理 学 家 希 格 斯 和 恩 格 勒 特 于 2013 年 获得 诺 贝 尔 物 理 
学 奖 。 这 毫 无 疑问 是 大 数据 应 用 的 成 功 范 例 之 一 。 

此 外 ， 尽 管 本 身 不 是 类 比 ， 但 却 可 以 考虑 基于 类 比 推理 构造 假设 的 方法 。 也 就 是 说 ， 
在 某 个 领域 中 已 被 确认 正确 的 命题 ， 可 以 通过 概括 或 专门 化 它 的 一 部 分 来 创建 新 命题 。 


3.4.8 传递 定律 


此 外 ， 通 过 演绎 推理 的 传递 定律 也 可 以 用 于 构建 假设 。 

(ASB) H (BSC) 

ASC 

然而 ， 这 里 的 传递 定律 并 不 用 于 命题 的 证 明 。 相 反 ， 一 个 新 的 假设 的 构造 ， 是 通过 将 
传递 定律 运用 到 两 个 或 更 多 已 构建 好 的 假设 中 。 此 外 ,假设 的 数量 可 以 增加 ， 可 以 通过 替 
换 命题 的 一 部 分 或 全 部 来 实现 ， 前 提 是 已 经 解释 的 可 信 命 题 ， 并 将 传递 定律 应 用 其 中 。 例 
如 ， 在 假设 两 个 变量 之 间 存 在 任何 间接 影响 的 情况 下 ， 加 入 一 个 假设 来 验证 变量 间 任 何 可 
能 的 直接 影响 ， 是 传递 定律 应 用 的 一 个 例子 。 
本 章 中 解释 的 各 种 推理 形式 适用 于 基于 观察 数据 或 通过 转换 现 有 假设 构建 新 假设 的 情 
况 。 此 外 ， 可 以 在 这 种 假设 构建 中 使 用 可 信和 推理 以 及 基于 严格 三 段 论 的 推理 。 应 使 用 哪些 
形式 的 推理 取决 于 根据 目的 用 于 分 析 的 具体 技术 。 不 管 使 用 哪 种 分 析 方 法 ， 都 可 以 基于 大 
对 象 之 间 的 关系 〈 即 概念 之 间 的 影响 关系 ) 来 构建 假设 ， 这 也 是 因果 关系 和 变量 间 相 关 
性 的 扩展 。 


3.5 假设 的 粒度 


在 本 节 中 ， 我 们 将 描述 假设 的 粒度 或 其 抽象 级 别 。 

多 变量 和 数据 挖掘 中 的 假设 主要 基于 数据 变量 之 间 的 关系 。 它 们 通常 是 在 相同 的 大 对 
象 或 相同 的 大 数据 源 内 的 假设 。 另 一 方面 ， 大 数据 应 用 通常 涉及 两 个 或 更 多 大 数据 源 。 因 
此 ， 与 整个 应 用 相关 的 假设 是 基于 异 构 大 对 象 之 间 的 关系 。 

相同 大 对 象 内 的 假设 构建 通常 是 基于 其 中 所 包含 数据 变量 之 间 的 相关 性 。 从 这 个 意义 
上 讲 ， 涉 及 相同 大 对 象 的 假设 ( 即 对 象 内 假设 ) 被 称 为 微观 假设 。 另 一 方面 ， 涉 及 异 构 
大 对 象 的 假设 构建 则 是 基于 数据 数量 〈 即 聚集 数 ) 之 间 的 相关 性 ， 而 不 是 基于 数据 个 体 
变量 之 间 的 相关 性 。 从 这 个 意义 上 讲 ， 对 象 间 假 设 被 称 为 宏观 假设 。 宏 观 假设 自然 比 微观 
假设 更 抽象 。 

在 宏观 假设 的 构建 中 ， 首 先 要 考虑 的 是 ， 发 现 一 组 异 构 大 数据 源 作为 相关 性 的 涉及 
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者 。 发 现 相 互 关 联 的 数据 源 的 任务 是 基于 异 构 数据 源 数 据 之 间 的 相似 性 。 计 算 这 些 相 似 性 
所 需 的 候选 属性 是 常见 的 属性 ， 如 时 间 、 地 点 、 意 义 ， 这些 可 以 将 异 构 数 据 间 广 为 关 联 。 
要 发 现 异 构 大 数据 源 之 间 的 关系 ， 需 要 从 其 他 源 中 检索 一 个 数据 源 ， 或 者 使 用 如 普遍 要 点 
之 类 的 属性 ， 同 时 检索 所 有 的 。 如 果 所 有 异 构 数 据 源 包含 语义 ,那么 应 首先 将 每 个 数据 源 
的 数据 集群 ， 接 着 基于 语义 跨越 异 构 数 据 源 集群 这 些 结果 ， 这 样 才 可 以 有 效 地 发 现 它 们 之 
间 的 关系 。 

请 注意 ， 除 了 某 些 大 数据 应 用 中 的 通用 关键 属性 之 外 ， 还 可 以 使 用 关系 数据 库 中 的 连 
接 键 和 面向 对 象 数 据 库 中 的 对 象 标识 符 。 然 而 ， 即 使 可 以 逻辑 性 地 描述 这 样 的 连接 谓词 ， 
也 并 不 总 是 能 够 有 效 地 对 大 数据 执行 相应 的 操作 。 

让 我 们 考虑 基于 对 物理 现实 世界 数据 (例如 交通 数据 ) 和 社交 数据 (例如 Twitter X 
章 ) 综合 分 析 的 大 数据 应 用 。 在 这 种 情况 下 ， 物 理 现实 世界 数据 缺乏 语义 信息 ， 而 社交 数 
据 包含 语义 信息 。 首 先 ， 通 过 将 物理 现实 世界 数据 中 的 突 发 或 异常 值 作 为 一 个 大 数据 源 
(例如 ， 车 站 乘客 的 数量 ) 来 作为 有 意思 的 异常 〈 例 如 ， 地 铁 中 的 交通 拥堵 的 原因 ) 进行 
观察 。 接 下 来 ， 通 过 使 用 异 构 大 数据 源 公共 的 信息 (例如 时 间 和 地 点 ， 即 通用 连接 键 ) 
来 检索 作为 另 一 大 数据 源 的 社交 数据 (例如 ，Tweets)。 将 文本 挖掘 应 用 于 检索 到 的 数据 
中 ， 并 将 分 析 者 感 兴趣 的 事件 〈 例 如 ， 作 为 拥堵 原因 的 流行 偶像 团体 的 演唱 会 ) 揭示 为 
结果 。 然 后 更 精确 和 定量 地 分 析 事 件 和 拥堵 之 间 的 因果 关系 。 作 为 基于 分 析 结 果 的 可 能 场 
景 ， 通 过 监视 类 似 事件 的 数据 (例如 ， 同 一 团体 组 织 的 演唱 会 ) 来 执行 广义 的 推荐 或 优 
化 〈 例 如 ， 绥 解 拥 堵 的 措施 ) 。 

请 注意 ， 异 构 社 交 数 据 (如 Twitter 和 Flickr) 之 间 的 关系 可 以 通过 基于 语义 相似 性 对 
它们 进行 的 聚 类 来 发 现 ， 因 为 它们 都 包含 语义 。 

微观 假设 的 构建 和 分 析 需 要 用 到 数据 挖掘 和 多 变量 分 析 。 另 一 方面 ， 宏 观 假设 的 构建 
和 分 析 则 需要 一 个 用 于 描述 和 分 析 大 数据 应 用 的 集成 框架 ， 特 别 是 如 本 书 所 提出 的 ， 以 大 
对 象 模型 作为 框架 的 主要 功能 。 


3.6 ”对 假设 的 重新 审视 


笔者 再 次 禁不住 ， 但 又 很 犹豫 是 否 要 对 不 预先 构造 任何 假设 的 情况 做 个 分 析 。 在 这 
里 ， 笔 者 想 思考 一 下 假设 。 数 据 分 析 通 常 通 过 以 下 两 个 步骤 来 构建 和 确认 假设 : 

(步骤 一 ) 假设 变量 之 间 存 在 系统 或 全 面 的 关系 ， 用 收集 的 数据 创建 、 分 析 和 确认 一 
个 假设 。 

CER) 如 果 在 基于 步骤 一 的 结果 的 假设 中 发 现 伪 关 系 ， 则 删除 它们 。 然 后 ， 通 过 
使 用 收集 的 数据 来 创建 并 再 次 确认 新 的 假设 ， 尽 管 原则 上 不 需要 重新 收集 数据 。 

这 里 ， 在 步骤 一 中 创建 的 假设 被 称 为 弱 假 设 ， 而 在 步骤 二 中 创建 的 假设 则 被 称 为 强 假 
设 。 当 然 ， 作 为 假设 两 者 在 结构 或 意义 上 都 是 相同 的 。 

弱 假 设 和 强 假设 分 别 对 应 于 探索 性 数据 分 析 中 的 假设 和 验证 数据 分 析 中 的 假设 。 并 且 
确认 弱 假 设 所 需 的 计算 成 本 明显 高 于 确认 强 假设 所 需 的 成 本 。 一 般 来 说 ， 这 种 差异 在 大 数 
据 中 往往 会 被 进一步 扩大 。 

在 诸如 并 行 计算 机 集群 之 类 的 硬件 平台 之 上 工作 的 〈 如 Hadoop 的 软件 ) 平台 ， 可 以 
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减少 整体 计算 成 本 或 处 理 时 间 。 因 此 ， 在 大 数据 时 代 ， 存 


认 步 又 的 理由 


在 着 进行 上 述 两 个 假设 构建 和 确 


T 


o 


最 后 对 数据 采集 做 一 些 说 明 。 在 大 数据 时 代 ， 许 多 情况 下 已 经 收集 和 积累 了 商业 数据 
和 科学 数据 。 社 交 数 据 ， 特 别 是 不 仅 是 在 其 生成 期 间 ， 而 且 在 此 之 后 ， 都 可 以 通过 抓 取 或 
使 用 Web 服务 API 从 Web 站 点 收集 。 然 而 ， 仍 需 足 够 谨慎 和 努力 地 尽量 收集 相关 的 数据 。 


另 一 方面 


， 物 理 现实 世界 数据 〈 例 如 日 常事 件 ) 在 许多 情况 下 消失 了 ， 除 非 它们 会 


被 应 用 端 有 意识 地 记录 下 来 。 也 就 是 说 ， 信 息 系统 当然 需要 通过 某 种 手段 ， 在 系统 外 存储 
这 种 物理 现实 世界 数据 。 


换 句 话说 


， 自 我 们 进入 大 数据 时 代 以 来 ， 假 设 的 定位 已 经 大 大 改变 。 在 前 大 数据 时 


代 ， 我 们 首先 要 构建 一 个 假设 ,之 后 ,为 了 确认 假设 ， 收 集 所 必需 的 数据 进行 实验 和 观 


察 。 男 一 方面 


务 对 应 于 大 数据 时 代 中 真正 需要 的 数据 收集 。 这 将 提高 数据 的 质量 和 所 构造 的 假设 的 结 
果 。 而 由 分 析 者 预先 创建 的 假设 , 或 者 从 终端 用 户 提 取 的 兴趣 〈 即 过 早 假设 ) ， 则 会 有 助 


， 有 必要 在 分 析 之 前 选择 、 清 理 和 变换 所 存储 的 数据 中 的 适当 部 分 。 这 些 任 


于 分 析 者 适当 地 选择 预先 收集 的 数据 。 
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在 本 章 中 ， 我 们 首先 将 从 交互 的 角度 分 清 社交 媒体 和 普通 网 页 的 区 别 。 然 后 ， 将 基于 


特性 来 描述 各 类 社交 大 数据 应 月 


目 ， 从 企业 使 用 〈 即 ， 商 业 使 用 ) 的 角度 而 不 是 从 个 人 使 


用 的 角度 看 ， 似 乎 有 希望。 此 外 ， 通 过 使 用 先前 介绍 的 MiPS 模型 以 及 分 析 场 景 和 所 需 任 
务 来 描述 假设 的 示例 。 


4.1 普通 网 页 与 社交 媒体 之 间作 为 分 析 主 体 的 差异 


在 讨论 社交 媒体 的 应 


用 之 前 ， 我 们 将 通过 关注 各 个 用 户 的 性 质 来 讨论 社交 媒体 和 普通 


网 页 ( 即 表 面 网 络 而 不 是 深层 网 络 ) 之 间 的 区 别 。 
如 下 所 述 ， 在 普通 网 页 和 社交 媒体 中 ， 用 户 和 系统 交互 的 类 型 有 很 大 的 区 别 。 在 社交 
媒体 和 普通 网 页 上 ， 可 用 于 分 析 的 数据 类 型 因 交 互 类 型 的 不 同 而 不 同 。 


首先 ， 考虑 普通 网 页 的 交互 。 普 通 网 页 的 用 户 可 大 致 分 为 终端 用 户 和 网 站 管理 员 。 在 


FANKE, EH 


E 员 明确 处 理 内 容 


要 是 浏览 网 页 ， 同 


站 上 也 可 以 通过 一 些 类 型 的 表 自 


j 时 网 站 也 会 记录 


的 创建 、 修 改 和 删除 。 另 一 方面 ， 终 端 用 户 的 交互 则 主 


用 户 的 点 击 流 作为 用 户 的 访问 历史 。 实 际 上 ， 在 一 些 网 
记录 其 他 动作 ， 如 输入 的 搜索 条 件 。 然 而 ， 需 要 用 户 账号 


或 者 允许 用 户 查 询 后 台数 据 库 的 网 站 ， 而 这 是 深层 网 络 (deep Web)， 而 不 是 表面 网 络 
(surface Web)。 简 言 之 ,终端 用 户 


通 网 页 分 析 ， 网 站 内 外 的 网 页 和 链 ] 
重要 。 基 本 上 只 有 网 站 管理 员 可 以 使 


匿名 ， 因 为 他 们 不 能 仅 从 IP 地 址 标识 。 因 此 ， 对 于 普 


接 作 为 显示 关系 ， 而 用 户 的 点 击 流 作 为 隐 式 关系 ， 都 很 


用 访问 历史 。 


另 一 方面 ， 在 社交 媒体 中 ， 除 了 管理 员 之 外 ， 还 有 可 通过 账户 名 识别 的 显 式 用 户 
(explicit users) 。 其 他 用 户 也 可 访问 用 户 的 个 人 资料 。 通 过 社交 媒体 网 站 ， 用 户 可 以 进行 
各 种 交互 ， 包 括 浏 览 和 创建 社交 数据 。 作 为 这 种 交互 的 结果 ， 主 要 内 容 ( 如 文章 和 照片 ) 
和 次 要 内 容 (如 标签 或 评价 、 访 问 历史 ) 形成 了 社交 数据 。 随 着 时 间 的 推移 ， 形 成 了 用 


PE, AA A ATi 


]、 站 间 内 容 间 、 


J 


j 户 和 内 容 间 的 关系 。 除 了 由 用 户 直接 或 间接 创建 的 内 


容 之 外 ， 以 这 种 方式 创建 的 多 样 化 历史 和 关系 是 社交 媒体 中 的 重要 分 析 主 题 。 社 交 媒 体 不 


同 于 普通 网 页 之 处 在 于 ， 
注意 社交 媒体 系统 利 
较 ， 普 通 网 页 的 配置 放 在 图 


社交 媒体 网 站 的 Web 服务 的 API 提供 了 大 部 分 的 数据 。 
1 用户 的 交互 ， 此 类 系统 的 一 个 典型 配置 如 图 4.1 所 示 。 为 便于 比 
4.2 中 展示 。 
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浏览 、 添 加 、 修 改 和 删除 添加 、 修 改 和 删除 


uh, — 


图 4. 1 用 户 与 社交 媒体 的 交互 


浏览 添加 、 修 改 和 删除 


图 4.2 用 户 和 普通 网 站 的 交互 


4.2 基于 要 素 的 社交 媒体 应 用 分 类 


通常 ，Web 挖掘 按照 关注 页 面 、 链 接 和 访问 历史 分 别 分 类 为 内 容 按 掘 、 结 构 挖 据 和 使 


用 挖掘 。 类 似 地 ， 社 交 媒 体 的 各 种 应 用 (任务 ) 也 可 以 根据 所 观察 到 的 社交 媒体 要 素 ， 
即 内 容 、 结 构 (RA) 和 访问 历史 ,来 分 类 。 也 就 是 说 ， 社 交 媒 体 的 企业 应 用 可 以 大 致 分 
为 以 下 三 个 类 别 ， 这 取决 于 分 析 者 观察 到 的 是 社交 媒体 的 哪些 要 素 。 


(1) 基于 内 容 分 析 的 应 用 

这 个 分 类 的 应 用 包括 以 下 内 容 : 

。 分 析 用 户 对 某 些 产品 和 服务 的 情感 和 声誉 

。 发 现 用 户 对 某 些 产品 和 服务 的 抱怨 与 改进 想法 
。 调查 用 户 对 尚 不 存在 的 产品 和 服务 的 愿望 和 需求 
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此 外 ， 如 果 还 可 以 使 用 用 户 个 人 资料 ， 则 在 分 析 时 可 以 进行 更 详细 的 分 析 。 

(2) 基于 结构 分 析 的 应 用 

结构 包括 内 容 之 间 的 关系 、 用 户 之 间 的 关系 ， 以 及 它们 各 自 之 间 的 关系 。 一 些 应 用 程 
序 可 以 从 社交 媒体 发 现 信息 并 利用 它们 ， 集 中 于 这 三 个 关系 中 的 一 个 或 任何 组 合 。 这 些 应 
用 包括 以 下 内 容 : 

。 发 现 和 使 用 类 似 的 内 容 

。 发 现 和 使 用 由 类 似 用 户 组 成 的 社区 

。 发 现 和 使 用 具有 影响 力 的 用 户 

诸如 产品 或 服务 推荐 的 广告 和 营销 可 以 被 认为 是 基于 所 发 现 内 容 、 社 区 和 用 户 的 应 
用 。 在 发 现 相似 内 容 时 ， 不 仅 应 该 观察 内 容 本 身 的 特征 ， 而 且 还 应 该 观察 内 容 用 户 的 相似 
性 。 使 用 用 户 个 人 资料 还 可 以 提高 发 现 的 准确 度 和 这 些 应 用 的 使 用 质量 。 

(3) 基于 访问 历史 和 变化 分 析 的 应 用 

基于 内 容 和 用 户 的 动态 分 析 的 应 用 包括 如 下 内 容 : 

。 衡量 营销 效益 

。 发 现 和 使 用 〈 预测) 特定 事件 以 及 它们 之 间 的 因果 关系 

。 发 现 新 趋势 、 需 求 和 热点 
使 用 用 户 个 人 资料 还 可 以 提高 预测 的 准确 性 以 及 发 现 的 概率 。 


4.3 基于 目标 的 社交 媒体 应 用 分 类 


参考 一 本 关于 社交 数据 控 掘 的 书 [Graubner - Mueller 2011 ] ， 本 节 将 解释 基于 社交 媒 
体 分 析 的 有 前 途 的 商业 领域 ， 也 包括 上 述 应 用 。 

由 于 商业 流程 中 的 每 个 步骤 都 可 被 视 为 对 应 于 特定 目标 的 ， 因 此 应 用 可 按照 目标 一 一 
列举 。 通 常情 况 下 ， 商 业 应 用 并 不 违背 个 人 利益 。 相 反 ， 许 多 情况 下 ， 通 过 提供 改进 的 服 
务 和 产品 ， 这 种 应 用 对 于 用 户 而 言 是 有 用 的 。 

此 外 ， 考 虑 到 有 用 性 ， 使 用 普通 网 页 的 应 用 也 在 参考 之 列 。 请 注意 “* ”表示 应 用 
主要 使 用 普通 网 页 ,“ + ” 则 表示 应 用 使 用 普通 网 页 和 社交 媒体 。 

(1) 研究 与 开发 

。 趋势 跟踪 : 对 社交 媒体 上 用 户 经 常 描述 的 特定 主题 ， 以 及 具有 潜在 价值 的 隐 含 主 
题 进行 趋势 调查 ， 以 便 探索 新 产品 开发 的 商业 环境 。 

© 消费 者 行为 分 析 : 针对 产品 、 产 品类 别 和 品牌 来 调查 消费 者 的 需求 、 意 愿 、 倾 向 
和 动机 。 既 然 在 一 般 大 众 中 ， 不 管用 户 有 没有 购买 产品 ， 他 们 关于 产品 、 产 品类 别 和 品牌 
的 意见 在 社交 媒体 中 都 会 有 所 讨论 ， 那 么 这 种 分 析 对 于 已 有 产品 的 改进 和 新 产品 的 开发 就 
是 有 用 的 ， 它 符合 潜在 需求 。 

。(* ) 技术 情报 : 当 一 个 公司 要 开发 新 产品 时 ， 可 以 依靠 Web 上 的 专业 技术 信息 
E (如 专利 数据 库 和 数字 图 书馆 ) 进行 相关 技术 的 趋势 调查 。 这 相当 于 以 前 的 对 竞争 对 
手 的 研究 ， 或 产品 研发 的 潜在 价值 的 探索 性 研究 的 调查 。 

(2) 市 场 营销 和 销售 

。 产品 和 品牌 形象 分 析 ; 分 析 具 体 产品 和 品牌 的 声誉 、 人 气 和 意见 。 实 际 上 ， 这 些 
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可 以 通过 售后 调查 获知 。 然 而 ， 社 交 媒 体 上 有 消费 者 的 动机 和 相关 评论 ， 更 有 潜在 消费 者 
的 原因 和 看 法 ， 这 些 数据 的 分 析 也 有 助 于 加 强 和 改变 当前 的 销售 策略 。 

。 活动 评价 : 由 于 面向 消费 者 活动 的 影响 ， 在 社交 数据 中 有 消费 者 对 它 的 描述 。 通 
过 分 析 这 种 社交 数据 ， 可 以 衡量 和 优化 营销 效果 。 

e 社区 与 意见 领袖 的 发 现 : 如 果 在 社交 媒体 上 发 现 和 某 个 产品 有 关 的 社区 ， 则 它 将 
是 产品 的 宣传 目标 。 此 外 ， 如 果 能 够 发 现在 社区 中 具有 巨大 影响 的 意见 领袖 ， 则 可 以 通过 
在 营销 中 使 用 包括 已 发 现 的 意见 领袖 的 渠道 来 影响 其 他 顾客 。 

(3) 分 销 

o (+) 选 址 与 选 址 规划 : 某 区 域 的 大 多 数 信息 以 及 该 区 域内 的 顾客 、 竞 争 对 手 已 经 
由 地 理 信息 服 务 在 网 络 上 发 布 。 男 一 方面 ， 社 交 媒 体 数 据 上 也 可 能 描述 了 该 区 域 或 竞争 对 
手 的 声誉 。 通 过 整合 这 种 碎片 信息 ， 准 确 选 择 前 景 好 的 地 方 开 一 家 公司 的 新 店 是 可 能 的 。 

(4) 顾客 服务 

。 产品 推荐 : 诸如 特定 商品 销售 历史 这 样 的 数据 ， 一 般 会 存储 在 内 部 数据 库 中 。 另 
一 方面 ， 社 交 媒 体 数据 中 描述 了 产品 的 等 级 和 声誉 ， 以 及 它 和 其 他 产品 的 关系 。 统 一 这 种 
数据 以 便 推 荐 产品 ， 从 而 提高 相应 产品 的 顾客 转化 率 。 

e 顾客 反馈 分 析 : 通过 给 购买 产品 的 客户 发 问卷 调查 获取 正式 的 顾客 反馈 。 社 交 数 
据 上 描述 了 一 些 不 满 、 改 进 建议 以 及 意 想不到 的 想法 ， 可 看 作 非 正式 的 顾客 反馈 。 分 析 这 
种 反馈 可 帮助 改进 产品 。 

(5) 采购 

o (1) 内 容 采 集 ， 通过 每 个 网 站 的 Web 服务 API 获取 两 个 以 上 网 站 的 同一 类 别 数据 
(如 产品 、 服 务 和 新 闻 ) ， 并 聚合 成 统一 结果 。 

e (=) 供应 商 和 价格 监测 : 以 综合 的 方式 监测 两 个 以 上 网 站 ,以便 比 较 有 效 地 供给 
各 部 件 的 供应 商 和 价格 。 

(6) 风险 与 公共 关系 管理 

© 投资 者 情绪 分 析 : 通过 分 析 社 交 媒 体 数 据 来 收集 和 分 析 关 于 特定 公司 的 投资 者 的 
情绪 是 可 行 的 。 

e 其 诈 检 测 : 通过 监控 文件 共享 相关 网 站 (如 BitTorrent 网 站 ) ; 预期 发 现 对 公司 造 
成 威胁 的 问题 (如 侵犯 版 权 ) 。 

© (+) 媒体 情报 : 在 普通 网 站 、 社 会 新 闻 和 社交 媒体 上 的 公司 传闻 中 收集 和 分 析 特 
定 公司 的 主流 新 闻 ， 以 便 进 行 客户 关系 管理 。 特 别 地 ， 如 果 在 早期 发 现 了 公司 的 负面 新 
闻 ， 可 采取 措施 ， 以 便 使 情况 不 会 变 得 非常 严重 。 

(7) 战略 管理 

© (1) 竞争 性 和 利益 相关 者 分 析 : 为 了 监视 和 分 析 竞 争 对 手 和 利益 相关 者 ， 进 行 基 
于 数据 的 调查 和 分 析 ， 如 官方 网 站 或 其 他 网 站 上 公布 的 管理 信息 和 新 闻 。 

(8) 人 力 资 源 管理 

。 雇主 声誉 根据 社交 媒体 的 分 析 调查 来 作为 雇主 单位 的 公司 的 声誉 。 

e (:#* ) 劳动 力 市 场 情 报 : 根据 招聘 网 站 的 数据 分 析 ， 调 查 与 公司 有 关 的 劳动 力 
市 场 。 


出 | 
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4.4 通过 MiPS 模型 描述 模型 


在 本 节 ， 我 们 将 会 具体 考虑 社交 媒体 和 真实 物理 世界 间 的 交互 ， 并 描述 性 地 给 出 了 关 
于 社交 大 数据 应 用 的 分 析 方法 的 特征 ， 这 也 是 本 书 的 关注 点 。 
真实 物理 世界 中 的 事件 包括 人 为 事件 (如 生产 者 发 布 一 个 新 产品 到 市 场 ) 和 自然 现 
Z (如 某 地 发 生 的 地 震 ) 。 此 外 ， 关 于 它们 的 新 闻 可 看 作 外 界 事 件 。 因 此 ， 这 些 事件 以 不 
同形 式 构成 了 真实 物理 世界 中 的 数据 。 
另 一 方面 ， 个 别 事件 〈 如 顾客 购买 特定 产品 ) 也 是 一 种 事件 。 然 而 ， 许 多 情况 下 这 
种 事件 仅仅 被 描述 为 社交 数据 。 即 使 事件 的 详情 被 存储 在 某 些 数据 库 (如 企业 数据 库 ) 
中 ， 也 不 可 能 从 系统 外 部 访问 。 如 果 顾 客 在 真实 物理 世界 中 受到 了 事件 的 任何 影响 ， 他 们 
就 会 给 出 描述 社交 媒体 中 事件 的 评论 、 声 誉 和 反馈 。 如 此 ， 便 形成 了 社交 数据 。 

称 为 MiPS 模型 的 元 分 析 模 型 包括 以 下 模式 作为 其 基本 模式 。 由 于 P 和 5S 是 模式 ， 所 
以 在 这 里 用 大 写字 母 表示 ( 见 图 4.3)。 

在 具体 应 用 的 模型 中 ， 由 这 些 模式 的 实例 或 它们 的 组 合 来 描述 交互 。 特 别 是 社交 媒体 
和 真实 物理 世界 之 间 的 互动 是 从 诸如 因果 关系 、 相 关 性 和 伪 相 关 性 之 类 的 影响 关系 的 观点 
来 建 模 的 。 这 里 将 讲解 在 这 种 分 析 中 如 何 分 析 交 互 和 所 需 任务 的 一 些 指导 。 下 面 的 讨论 将 
从 假设 的 简单 例子 开始 ， 并 进行 到 更 复杂 的 例子 。 


4.4.1 简单 例子 


首先 ， 将 描述 包括 社交 数据 (CS) 在 内 的 特定 假设 ， 着 重 于 简单 的 情况 。 以 下 简单 的 
假设 (用 记号 Hs 表示 ) 被 认为 是 这 种 示例 ( 见 图 4.4) 。 

。 (Hs1) 在 制造 商 将 其 新 产品 推 向 市 场 (p) 之 后 ， 购 买 该 产品 的 顾客 在 社交 媒体 
中 描述 其 声誉 。7p 一 s 

。 (Hs2) 在 地 震 发 生 后 (p) ， 实 际 经 历 地 震 的 人 在 社交 媒体 中 描述 了 他 们 自己 的 经 
Ji, p>s 

© (Hs3) 在 购买 产品 的 顾客 自愿 在 社交 媒体 中 给 出 正面 积极 评价 后 〈(*) ， 产 品 开始 
销售 良好 (P) 。s 一 p 

© (Hs4) 通过 呼吁 人 们 借助 社交 媒体 的 方式 来 提出 抗议 〈*) ， 人 们 开始 聚集 抗议 
(p), 进而 在 社交 媒体 中 发 表 评 论 (s')。 s>pas'* | 循环 | 

。 (Hs5) 只 有 在 社交 媒体 中 才 有 关于 某 个 主题 的 热烈 讨论 (5s). ss" | 循环 | 

小 写字 母 和 * 分 别 表 示 类 PP 和 类 5 的 实例 。 通 常 ， 由 于 存在 两 个 或 更 多 类 似 的 实例 ， 
所 以 它们 对 应 于 一 组 实例 。 

从 社交 大 数据 的 商业 应 用 角度 来 看 ， 包 括 以 下 交互 的 应 用 尤其 被 认为 值得 分 析 。 

。 商业 事件 (真实 物理 世界 数据 ) 引发 社交 媒体 帖子 的 情况 ，( 如 Hsl ) 

e 反之 ,社交 数据 引发 真实 物理 世界 数据 的 情况 ，( 如 Hs3) 

ATH, 事件 与 商业 较 少 相关 的 情况 (如 Hs4) 和 不 涉及 真实 物理 世界 数据 的 情况 (如 
Hs5) 是 从 政治 或 社会 科学 的 角度 分 析 的 有 趣 主题 。 然 而 ， 这 种 情况 在 本 书 中 将 不 再 讨论 。 

文本 挖掘 是 分 析 我 们 的 兴趣 (如 Hsl1、Hs2 和 Hs3) 的 假设 所 需 的 任务 之 一 。 下 面 将 


52 FER KGET TE 


THE 
WOH 


图 4.3 基本 模式 


解释 其 在 社交 大 数据 中 的 应 用 重点 。 

(1) 主题 检测 

首先 ， 有 必要 从 社交 内 容 中 提取 关于 实体 〈 即 主题 ) 的 信息 ， 例 如 ,产品 (Hs1) 和 
HWA (Hs2 ) ， 以 便 分 析 关 于 这 些 实体 的 评论 。 在 这 种 情况 下 ， 重 要 的 是 提取 关于 实体 的 
各 种 信息 ， 例 如 信息 源 和 对 现象 的 反应 ， 即 ， 除 了 关于 实体 本 身 的 信息 之 外 ， 用 户 在 何 
时 ， 何 地 ， 对 实体 做 了 什么 ， 以 及 如 何 做 。 特 别 地 ， 与 Twitter 一 样 ， 所 有 这 样 的 相关 信息 
不 一 定 被 描述 为 一 个 推 文 ( 即 一 篇 文章 ) 。 因 此 ， 有 必要 从 包含 在 用 户 的 时 间 线 的 推 文中 
识别 与 某 个 实体 相关 联 的 一 组 连贯 的 推 文 。 然 而 ,这 组 推 文 在 时 间 线 上 不 一 定 会 连续 出 
现 。 也 就 是 说 ， 由 于 各 个 主题 在 相同 的 时 间 线 上 交叉 ， 因 此 有 必要 识别 连贯 集 ， 注 意 相关 
文章 之 间 的 时 间 灌 后 。 

此 外 ， 关 注 于 社交 数据 的 动态 状态 的 方法 有 望 用 于 检测 那些 事先 并 不 知道 的 与 话题 相 
关 的 事件 。 关 于 事件 ， 例 如 ， 文 章 的 数量 可 能 会 随时 间或 空间 〈( 即 地 理 上 ) 改变 ， 并 且 用 
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4.4 简单 例子 


户 之 间 的 关系 也 可 能 会 快速 变化 。 对 这 种 动态 的 分 析 使 得 分 析 者 能 够 知道 某 些 事件 已 经 发 
生 ， 并 且 能 够 将 与 该 事件 相关 的 主题 作为 结果 识别 出 来 。 

(2) 文章 重要 性 评价 

在 分 析 声 誉 (如 Hsl) 或 口碑 (如 Hs3 时 )， 有 必要 对 被 描述 为 社交 数据 〈 即 文章 ) 
的 主题 相关 内 容 应 用 文本 挖掘 ， 以 便 评估 数据 的 重要 性 和 相关 性 。 此 外 ， 在 社交 数据 的 文 
本 挖 气 中， 除了 定量 分 析 之 外 ,使 用 定性 分 析 也 很 重要 。 

为 了 评价 文章 对 事件 的 重要 性 和 相关 性 ， 关 注 内 容 所 包含 术语 的 情感 倾向 (BAE 
到 中 性 再 到 负 值 的 值 ) 是 有 效 的 。 也 就 是 说 ， 如 果 需 要 的 话 ， 可 以 根据 内 容 中 所 包含 的 术 
语 将 内 容 机 械 地 变换 成 连续 变量 、 定 序 变量 ( 即 意见 和 声誉 ) 或 定 类 变量 ( 即 产 品类 别 、 
活动 参与 、 行 动 类 型 )。 特 别 地 ， 与 意见 和 情绪 相关 联 的 定 序 变量 的 值 可 以 通过 使 用 包含 
词语 情感 倾向 的 情感 倾向 字典 来 确定 。 定 性 变量 ,例如 定 序 变 量 和 定 类 变量 ， 其 定量 处 理 
参考 量化 理论 [Tanaka 1979 ] ， 我 们 会 在 下 面 进行 概述 。 

首先 ， 叙 述 处 理 定 序 变量 的 一 般 方式 。 

。 二 值 定 序 变 量 被 视 为 具有 0. 0 或 1.0 作为 其 值 的 连续 变量 ， 并 按 原样 处 理 。 

。 对 于 值 多 于 两 个 等 级 (例如; ++, +,0, -, --) HEPES, 通常 使 用 
Likert 量 表 。 

假设 潜在 变量 ， 按 照 标 准 正 态 分 布 有 连续 值 ， 则 认为 该 变量 仅 出 现在 五 个 等 级 中 。 

定 类 变量 的 转换 方法 如 下 所 述 : 

。 二 值 定 类 变量 可 像 二 值 定 序 变 量 一 样 人 处理。 

© 多 值 定 类 变量 的 处 理 如 下 : 

首先 ， 假设 定 类 变量 4 有 个 类 别 C,(i=1, 2, =, n)o 
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引入 w 个 虚拟 变量 4 (i =1,， 2，…，mn)。4 是 二 值 变 量 ， 具 有 如 下 的 值 。 

如 果 4= C,， 那 么 令 4, 为 1， 否 则 令 4, 为 0。 

如 此 ， 定 类 变量 可 以 用 两 个 为 一 组 的 变量 或 更 多 二 值 变 量 表示 。 

此 外 ， 当 社交 内 容 包含 具有 情感 倾向 的 两 个 或 更 多 词语 时 ， 可 以 考虑 以 下 方法 。 

o 词语 的 情感 倾向 评估 可 以 通过 简单 的 统计 方法 (如 和 或 均值 ) 汇总 。 

。 作为 上 述 方法 的 变形 ， 通 过 使 用 向 量 空 间 模型 中 的 TFIDF 作为 权重 来 对 词语 的 情 
感 倾 向 评估 取 均 值 。 

。 在 评估 一 组 词语 时 ， 考 虑 它们 之 间 的 关系 。 例 如 ， 将 “价格 不 高 ” “价格 高 ”和 
“精度 高 ”分 别 评估 为 正 、 负 和 正 。 

以 这 种 方式 ， 由 于 可 以 假设 所 有 变量 ， 所 以 无 论 是 定量 的 还 是 定性 的 ， 都 能 取 连 续 
值 ， 基 本 上 可 以 定量 分 析 内 容 。 

然而 ， 足 以 用 于 定量 分 析 的 数据 并 不 总 是 可 以 收集 到 的 。 在 这 种 情况 下 ， 有 必要 定性 
分 析 单 个 文章 ， 仔 细 将 文本 翻译 成 尽 可 能 客观 的 语句 或 数值 。 此 外 ， 还 需要 根据 应 用 来 创 
建 定 性 分 析 的 假设 。 

(3) 客观 和 主观 观察 

在 实际 应 用 中 ， 有 必要 处 理 关 于 自然 现象 的 两 种 观测 值 ， 例 如 地 震 和 天 气 。 因 此 ， 观 
测 值 包括 客观 值 (例如 ， 由 装置 测量 的 地 震 强 度 和 温度 ) 和 主观 值 (例如 ， 人 感觉 到 的 
地 震 强 度 和 温度 ) 。 总 之 ， 这 两 种 数据 分 别 对 应 于 真实 物理 世界 数据 和 社交 数据 。 因 此 ， 
有 必要 通过 彼此 之 间 的 关联 来 分 析 它 们 。 通 常 ， 我 们 认为 后 一 种 数据 比 前 者 更 重要 ， 因 为 
它们 对 于 用 户 更 加 本 土 化 和 现实 。 此 外 ， 它 们 具有 更 高 的 可 能 性 来 直接 导致 用 户 的 行动 。 

(4) 说 明 语 言 

在 通常 的 应 用 中 ， 仅 使 用 同一 种 语言 (例如 日 语 ) 描述 的 一 组 社交 数据 作为 分 析 的 
目标 就 足够 了 。 人 然而， 一 些 应 用 程序 则 在 发 现 语言 间 的 差异 。 在 这 种 情况 下 ， 当 然 有 必要 
去 分 析 一 下 用 不 同 语言 描述 的 社交 数据 。 

例如 ， 根 据 笔者 的 研究 [Ishikawa 2014] ， 外 国 游客 在 日 本 经 常 参 观 的 地 方 不 一 定 与 
日 本 人 经 常 参观 的 地 方 一 致 。 我 们 通过 指定 不 同 语言 拼写 出 的 东京 的 主要 地 名 作为 搜索 条 
件 来 收集 推 文 。 我 们 计算 了 每 种 语言 中 每 个 地 方 发 表 的 推 文 的 频率 ， 并 为 每 种 语言 排名 。 
因此 ， 我 们 可 以 知道 在 使 用 特定 语言 的 人 群 中 受 欢 迎 的 地 方 的 排名 ( 见 图 4.5)。 此 外 ,， 通 
过 关注 用 户 的 账号 和 时 间 ， 我 们 还 可 以 发 现 外 国 游客 的 热门 观光 路 线 ， 所 谓 的 黄金 路 线 。 


Piikt: 参观 个 地 方 


| 


SipkP 发 表 文章 


任务 :按照 文章 的 语言 、 地 1;、 时 间 4 和 用 让 ,进行 排名 


图 4.5 语言 、 时 间 与 空间 


第 4 章 社交 大 数据 应 用 3 


4.4.2 更 复杂 的 例子 


在 本 节 中 ， 我 们 将 描述 更 为 复杂 的 假设 (用 记号 He 表示 ) ， 它 结合 了 上 述 两 个 简单 
假设 ( 见 图 4.6)。 


< 一 未 制 迁 商 将 其 新 产品 推 疝 市 场 
Hel 社交 数据 中 出 现 了 用 户 描述 的 对 该 产品 的 响应 ， 如 要 求 > 
;这些 要 求 使 制造 商 改进 产 贞 


Cr 已 制 造 商 进行 新 产品 的 宣传 
He2 5: 购 买 该 产品 的 用 户 在 社交 数据 中 描述 了 他 们 对 新 产品 的 使 用 和 评价 


Pp": 帆 于 这 些 文章 的 发 布 该 产品 开始 销售 民 好 ee 


:一 篇 关 十 吃 此 红 柿 是 有 效 抵抗 代 痪 综合 征 的 措施 的 学 术 论 文 发 表 在 学 术 期 刊 上 
rs C s: 了 解 它 的 人 在 社交 数据 中 引用 它 
P :由 于 社交 数据 的 影响 西 红 俩 在 市 场 中 开始 销售 良好 并 是 缺 货 > 
酸奶 对 预防 流感 作用 的 研究 成 为 新 闻 司 
s; 用 户 在 社交 数据 中 引用 该 新 闻 一 
灰 酸 声 年 产 知 根据 社交 碰 体 文章 ， 增 而 了 酸奶 产量 


元 温度 突然 下 降 
Hes a SIRER AEP RI RAR R E 


p': 由 丁 社交 媒体 文章 ， 冬 季 服 装 突然 开始 好 卖 > 


He4 


图 4.6 更 复杂 的 情况 


。 (Hel) 在 制造 商 将 其 新 产品 推 向 市 场 (p) 之 后 ， 社 交 数 据 中 出 现 了 用 户 描述 的 
对 该 产品 的 响应 ， 如 要 求 〈s) 。 此 外 ， 这 些 要 求 使 制造 商 改 进 产品 (p'). psp’ 

。 (Hc2) 在 制造 商 进行 新 产品 的 宣传 (p) 之 后 ， 购 买 该 产品 的 用 户 在 社交 数据 中 
描述 了 他 们 对 新 产品 的 使 用 和 评价 〈s) 。 此 外 ， 由 于 这 些 文章 的 发 布 该 产品 开始 销售 良好 
(p') 5 p=s=p' 

© (H3) 在 一 篇 关于 吃 西红柿 是 有 效 抵 抗 代谢 综合 征 的 措施 的 学 术 论 文 发 表 在 学 术 
SHALL (p) 之 后 ， 了 解 它 的 人 在 社交 数据 中 引用 它 〈s*) 。 从 那 之 后 ， 在 社交 媒体 文章 的 
影响 下 ， 西 红 柿 在 市 场 上 开始 销售 良好 并 且 缺 货 (p'). psp 
e (Hc4) 酸奶 对 预防 流感 有 作用 的 研究 成 为 新 闻 (p)， 并 且 用 户 在 社交 数据 中 引用 
该 新 闻 (s)。 然 后 酸奶 生产 者 根据 社交 媒体 文章 ， 增 加 了 酸奶 产量 (p') p>s>p' 

© (Hc5) 当 温 度 突然 下 降 (p) 之 后 ， 在 社交 数据 中 发 出 “天 气 冷 ”的 用 户 数 量 增 
加 (s)。 由 于 社交 媒体 文章 ， 冬 季 服 装 突然 开始 好 卖 (p'). pasap' 

为 了 分 析 这 些 假设 ， 我 们 至 少 需要 挖掘 自然 语言 文本 和 发 现 因果 关系 。 下 面 将 分 析 解 
释 场 景 。 


(1) 定性 分 析 
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如 果 社 交 媒 体 上 有 对 产品 的 要 求 (如 Hel 中 的 例子 ) ， 则 重要 的 是 判断 产品 是 否 应 该 
基于 这 些 要 求 来 改进 。 在 这 种 情况 下 ， 应 该 将 内 容 的 情感 倾向 分 析 作 为 出 发 点 。 然 而 ， 社 
交 媒 体 文章 中 引起 改进 的 类 似 要 求 可 能 并 不 总 是 很 频繁 。 而 且 ， 这 样 的 文章 也 可 能 是 某 种 
类 型 的 异常 值 。 因 此 ， 在 这 种 情况 下 ， 仅 基于 类 似 的 低频 文章 的 分 析 是 不 够 的 。 相 反 ， 这 
种 文章 的 定性 分 析 比 定量 分 析 更 实用 。 

(2) 定量 预测 和 调解 效应 

有 必要 判断 利用 社交 媒体 预测 现象 的 有 效 性 (p') 。 在 He2 . He3, Hed 和 Hes 的 例子 
中 ， 社 交 数 据 对 应 于 中 介 大 对 象 ， 它 是 对 多 变量 分 析 中 中 介 变 量 的 扩展 。 为 了 保持 这 样 的 
关系 ， 有 必要 检查 多 少 社交 数据 会 促进 销售 (p')。 如 果 可 以 确认 因果 关系 的 任何 存在 ， 
则 该 关系 可 以 如 下 使 用 : 如 果 在 相同 社交 媒体 中 作为 传感器 的 、 具 有 影响 力 的 用 户 ， 他 所 
提交 的 新 文章 中 可 以 观察 到 看 似 的 潜在 变量 (p) ， 则 可 以 预测 将 来 发 生 的 事件 Cp’) 。 

此 外 ， 有 时 需要 考虑 直接 影响 另 一 事件 (p') 的 事件 (p) 的 可 能 性 。 例 如 ， 在 He4 
的 例子 中 ， 可 以 认为 酸奶 对 流感 的 预防 效果 的 消息 直接 导致 了 酸奶 产量 的 增加 。 在 这 种 情 
况 下 ， 有 必要 综合 考虑 真实 物理 世界 中 的 直接 效应 和 社交 媒体 中 的 间接 效应 。 

(3) 情感 倾向 分 析 

如 已 经 描述 的 ， 一般 来 说 ， 需 要 基于 内 容 本 身 的 情感 极 性 值 来 执行 文本 挖掘 ， 以 用 于 
分 析 由 内 容 所 包含 的 要 求 或 情感 。 通 过 从 内 容 中 提取 信息 来 发 现 作为 信息 源 的 学 术 期 刊 和 
新 闻 。 特 别 地 ， 为 了 预测 用 户 行为 需要 分 析 对 应 客观 观测 值 (例如 ,温度 ) 的 主观 观测 
{A (例如 ， 热 和 冷 ) 。 

此 外 ， 为 了 找到 关于 特定 主题 或 其 贡献 者 的 主要 文章 ， 可 以 评估 和 使 用 文章 与 主题 的 
相关 性 ， 其 贡献 者 对 其 他 用 户 的 影响 以 及 关于 该 主题 的 文章 预测 的 准确 性 。 

(4) 开放 获取 期 刊 

最 近 ， 开 放 获 取 期 刊 [Laakso et al. 2011] 得 到 了 很 多 关注 ， 因 为 它 允 许 每 个 人 自由 
访问 文章 。 通 常 ， 它 的 审 稿 时 间 比 常规 学 术 期 刊 的 得。 因此 ， 科 学 发 现 可 以 更 广泛 和 更 早 
地 被 人 们 所 认识 。 因 此 ， 这 些 科学 发 现在 社交 数据 中 也 会 被 更 频繁 地 引用 。 这 一 事实 部 分 
提高 了 社交 数据 在 构建 假设 中 的 可 用 性 (如 Hc3 中 的 例子 ) 。 

相 比 传统 期 刊 ， 在 开放 获取 期 刊 中 ， 我 们 可 以 更 早 获取 的 不 仅 有 阅读 次 数 和 下 载 次 
数 ， 而 且 还 有 引用 的 论文 。 笔 者 和 笔者 的 同事 已 经 进行 了 初步 实验 ， 以 确保 有 可 能 仅 基于 
观点 的 时 间 序 列 数据 和 论文 下 载 [Ishikawa 2014] 的 相似 性 就 能 发 现 高 引用 的 论文 (如 ， 
90 篇 以 上 引用 的 论文 ，HC) 。 首 先 ， 我 们 从 公共 科学 图 书馆 (Public Library of Science, 
PLoS) 收集 了 48261 份 样本 文件 和 三 个 月 来 的 下 载 数据 。 接 下 来 ， 我 们 应 用 动态 时 间 扭 曲 
CF 树 方法 〈 可 伸缩 聚 类 方法 BIRCH 的 扩展 ) ， 以 便 对 收集 的 数据 进行 聚 类 ， 并 找到 包含 
大 量 HC 论文 的 集群 。 事 实 上 ， 该 集群 包含 了 整个 样本 文件 中 97.74% 的 HC 论文 ( 即 389 
篇 论文 ) 。 这 表明 ， 通 过 使 用 仅 三 个 月 的 下 载 历史 ， 至 少 有 97% 的 置信 度 发 现 高 引用 
论文 。 

虽然 这 是 一 个 简单 的 情况 ， 其 中 假设 由 P (发 布 ) =p’ CFR) 和 以 p 作为 常见 原因 之 
p”( 引 用 ) 组 成 的 ， 其 独特 之 处 在 于 ， 该 案例 利用 了 与 开放 获取 期 刊 相关 联 的 高 速 发 布 
( 见 图 4.7)。 
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有 影响 力 的 关系 


ee 


图 4.7 管见 的 原因 


4.4.3 伪 相 关 关 系 


在 本 节 中 ,我 们 将 考虑 包含 伪 相 关 关系 作为 除 因果 关系 之 外 的 影响 关系 的 假设 ( 见 图 
4.8)。 


ee 


Hscl 


Hse2 


Hse3 me 


to -è 仿 关系 
图 4.8 包括 伪 相 关 的 情况 
。 (Hscl) 在 太平 洋 发 生地 震 (p) 之 后 ， 用 户 立 即 在 社交 数据 中 描述 地 震 ， 然 后 海 


Wit DA ie BEAR eo A ASI ORE EM (p') . p=p' (p>s) 
。 (Hsc2) 如 果 发 生 厄 尔 尼 诺 现象 (p) ， 则 日 本 将 有 一 个 凉爽 的 夏天 (p')， 并 将 在 
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社交 数据 中 有 描述 〈s*) ， 接 着 日 本 将 有 一 个 上 暖冬 (p"). p>p'>s (p=p") 

© (Hsc3) 如 果 人 们 参加 一 个 流行 艺术 家 的 演唱 会 ,那么 他 们 中 的 大 多 数 人 会 乘坐 火 
车 ， 并 会 在 社交 数据 上 描述 他 们 对 演唱 会 的 感受 。p 一 P”(P 一 *) 

下 面 将 解释 处 理 这 些 假设 的 方法 。 这 里 ， 我 们 将 会 描述 伪 相关 的 下 面 应 用 ， 在 典型 的 
多 变量 分 析 中 发 现 因果 关系 时 应 当 谨慎 地 处 理 。 

(1) 社交 数据 作为 实时 传 感 天 

在 Hscl WAFF, WZ p 是 现象 p' 的 直接 原因 。 换 句 话 说， 现象 p 成 为 现象 p' 的 标 
志 。 因 此 ， 这 种 因果 关系 需要 被 精确 地 确定 。 如 果 可 以 通过 使 用 社交 数据 作为 该 值 的 传 感 
器 来 挖掘 观察 值 (P) ， 则 可 以 预测 现象 p'。 由 于 p' 是 自然 现象 ， 所 以 当然 没有 从 s 到 p' 的 
严格 因果 关系 ， 尽 管 在 s 和 p' 之 间 可 能 保持 伪 相 关 关 系 。 此 外 ， 在 该 例子 中 ， 从 p 到 的 
因果 关系 发 生 的 时 间 非 常 短 。 如 果 可 以 接近 实时 地 监测 *， 即 使 用 户 不 知道 地 震 真 的 发 生 
(p) ， 监 测 值 也 可 以 用 作 海 啸 (p') 的 紧急 玻 散 报警 。 虽 然 有 正式 的 海啸 警告 ， 当 然 ， 警 
告 不 是 总 能 在 人 们 可 以 逃避 海 哺 之 前 传 给 他 们 的 。 不 用 说 ， 对 于 地 震 ， 获 取 精 确信 息 ( 例 
如 ， 地 震 的 震中 、 大 小 和 时 间 ) 以 及 这 些 信息 的 来 源 ， 是 先决 条 件 。 

(2) 社交 数据 作为 未 知 现象 的 传感器 

在 Hsc2 的 例子 中 ,现象 p 是 现象 p”( 或 社交 数据 s) 和 现象 p" 的 常见 原因 。 这 种 因果 
关系 需要 以 类 似 的 方式 严格 确定 。 虽 然 在 p' 和 p" 之 间 可 能 没有 因果 关系 ,但 是 至 少 在 它们 
之 间 保 持 伪 相关 关系 。 如 果 在 这 种 情况 下 通过 使 用 s 作为 其 传感器 可 以 获取 观测 值 p’), 
则 可 以 预测 p's ERZ (p) 还 不 是 特别 清楚 的 情况 下 ， 可 以 使 用 这 种 伪 相 关 关系 ， 虽然 
它 不 普遍 但 却 具 有 限制 性 。 

(3) 搜索 社交 数据 的 真实 物理 世界 数据 原因 

如 已 经 讲述 的 ， 如 果 这 样 的 异 构 大 数据 源 彼此 适当 地 相关 ， 则 可 以 在 具有 语义 的 社交 
数据 中 发 现 没有 语义 的 真实 物理 世界 数据 中 事件 的 原因 。 某 些 类 型 的 服务 优化 可 以 通过 使 
用 以 下 结果 来 完成 〈 见 图 4.9) 。 


ROBES FERRARA 


图 4.9 伪 相 关 的 部 署 


在 铁路 网 络 发 达 的 日 本 ， 参 加 流行 音乐 演唱 会 的 人 们 会 在 演唱 会 结束 后 回 家 ， 他 们 大 
部 分 在 最 近 的 车 站 乘坐 火车 。 结 果 ， 我 们 会 通过 他 们 的 IC 卡 发 现 真 实物 理 世 界 的 乘客 数 
量 (p) 迅速 增加 。 此 外 ， 在 社交 数据 中 许多 参与 者 描述 他 们 对 演唱 会 以 及 拥挤 的 车 站 的 


pe 
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看 法 (*) 。 因 此 ， 这 类 帖子 的 数量 会 迅速 增加 。 另 一 方面 ， 那 些 负责 铁路 运输 业务 的 人 则 
会 对 任何 一 个 能 导致 乘客 人 数 迅 速 增加 的 原因 感 兴趣 。 在 这 种 情况 下 ， 通 过 在 相同 时 间 段 
(例如 ， 拥 塞 时段 ) 收集 和 分 析 关 于 相同 地 点 〈 例 如 ， 拥 挤 车 站 ) 的 一 组 文章 来 注意 伪 相 
关 ， 数 量 突然 开始 爆发 ， 可 以 在 其 中 找到 演唱 会 参与 者 发 布 的 文章 ， 并 从 中 获得 相应 的 用 
户 的 兴趣 (例如 ， 流行 音乐 会 ) ， 这 也 是 * 和 p' 的 常见 原因 。 

接 下 来 ， 通 过 监测 相关 网 站 主页 上 安排 的 类 似 音 乐 会 ， 并 作为 信息 来 源 ， 铁 路 公司 可 
以 提前 采取 措施 预防 火车 或 车 站 拥堵 。 它 们 包括 一 些 优 化 ， 例 如 通过 公共 宣传 将 乘客 有 效 
分 流 到 两 个 或 更 多 个 车 站 ， 或 使 用 其 他 交通 工具 。 这 可 以 被 认为 是 ， 积 极地 使 用 真实 物理 
世界 数据 和 社交 数据 之 间 伪 相关 性 的 有 和 希望 的 示例 之 一 。 

在 这 种 情况 下 的 社交 数据 除了 在 车 站 的 那些 之 外 还 包含 在 演唱 会 现场 的 拥堵 。 为 了 预 
测 交 通 中 未 来 发 生 的 拥塞 ， 有 必要 通过 对 基于 伪 相 关 收 集 的 社交 数据 应 用 分 类 或 聚 类 来 精 
确 地 获取 与 交通 相关 的 拥堵 [Ishikawa 2014] 。 

在 此 对 应 用 伪 相 关 做 一 些 说 明 。 在 许多 情况 下 ， 伪 相关 包含 时 间 和 空间 信息 。 在 这 种 
情况 下 ， 可 以 通过 为 SQL 中 的 0 — join 指定 空间 或 时 间 数 据 上 的 条 件 来 逻辑 地 描述 伪 相 关 。 
然而 ， 实 际 的 实现 需要 各 种 合适 的 方法 ， 因 为 待 比较 数据 的 单位 (如 粒度 ) 或 位 置 (如 
内 容 或 标签 ) 可 能 因应 用 域 而 不 同 。 通 常 ， 可 以 基于 排序 或 散 列 来 找到 异 构 非 流 数 据 的 对 
应 部 分 。 在 异 构 流 数据 的 情况 下 ， 可 以 使 用 一 种 方法 ,通过 使 用 诸如 除了 空间 和 时 间 信 息 
之 外 的 数据 突 发 或 语义 信息 来 识别 一 个 流 数据 的 子 集 ， 并 且 通 过 使 用 之 前 数据 流 所 识别 的 
子 集中 提取 的 空间 或 时 间 信 息 作为 条 件 来 过 滤 其 他 数据 流 。 


4.5 展望 


这 里 我 们 将 描述 引入 综合 分 析 框 架 后 预期 带 来 的 前 景 。 通 过 建立 和 传播 引进 的 框架 
( 见 图 4. 10) ， 不 但 同一 部 门 能 够 自然 产生 和 使 用 他 们 自己 的 大 数据 ， 而 且 另 一 些 部 门 也 
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图 4.10 动态 产业 结构 
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将 能 够 分 析 和 配置 其 他 部 门 已 产生 的 大 数据 。 如 果 形 成 大 数据 自由 市 场 ， 且 公共 部 门 的 大 
数据 也 能 广泛 开放 ， 那 么 大 数据 的 布局 和 部 署 就 将 会 加 速 。 此 外 ， 大 数据 将 介 于 不 同 部 门 
之 间 ， 并 将 产生 工业 结构 动态 变化 的 可 能 性 。 最 终 ， 将 在 整个 社会 建立 起 先进 的 知识 或 


no 
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本 章 介绍 数据 挖掘 的 基本 概念 、 典 型 任务 ， 以 及 作为 数据 挖掘 目标 的 基本 数据 结构 。 
5.1 什么 是 数据 挖掘 


首先 ， 数 据 挖掘 是 社交 大 数据 分 析 中 用 作 构 建 假设 的 主要 技术 ， 这 里 将 对 其 基本 概念 
[ Han et al. 2006, Tan et al. 2006] 进行 简要 描述 。 简 而 言 之 ， 数 据 挖掘 就 是 发 现 应 用 程序 
使 用 的 大 量 数据 中 出 现 的 频繁 模式 和 有 意义 的 结构 。 其 主要 技术 (如 多 变量 分 析 ) ， 可 用 
于 验证 社交 大 数据 中 的 假设 ,我 们 将 在 单独 的 章节 中 解释 。 
数据 挖掘 的 基本 技术 之 一 是 关联 规则 挖掘 ， 也 称 为 关联 分 析 。 它 是 发 现 业务 应 用 程序 
使 用 的 结构 化 数据 之 间 频 繁 的 共 现 ， 这 些 结构 化 数据 通常 由 数据 库 管理 系统 (Database 
Management Systems, DBMS) (例如 关系 数据 库 系统 ) 管理 。 因 为 这 个 目的 ， 在 许多 情况 
下 使 用 Apriori 算法 。 例 如 ， 关 联 规则 挖掘 发 现 ， 在 一 组 项 目 (如 ， 购 物 车 中 的 内 容 ， 即 
顾客 在 类 似 超 市 的 零售 商店 里 在 相同 时 间 内 所 购买 的 商品 ) 中 组 合 项 目 频繁 共存 。 由 算法 
从 频繁 组 合 项 目 发 现 关联 规则 。 基 于 关联 规则 ， 许 多 应 用 系统 通过 修改 它们 的 设置 来 推荐 
项 目 组 。 关 联 规则 挖掘 被 扩展 并 应 用 于 产品 购买 历史 和 网 页 点 击 流 历 史 ， 以 便 发 现 系列 数 
据 的 频繁 模式 。 特 别 地 ， 挖 掘 历史 数据 被 称 为 历史 数据 挖掘 。 
另 一 方面 ， 基 于 其 类 (CM, 类别) 预知 的 数据 来 训练 分 类 器 。 然 后 ， 如 果 有 新 数据 ， 
则 通过 使 用 训练 好 的 分 类 器 来 确定 它们 所 属 的 类 。 这 个 称 为 分 类 的 任务 是 基本 的 数据 挖掘 
技术 之 一 。 朴 素 贝 叶 斯 和 决策 树 可 用 作 典 型 的 分 类 髓 。 分 类 可 用 于 各 种 应 用 ， 例 如 确定 有 
希望 的 顾客 ， 检 测 垃圾 邮件 和 确定 科学 或 医学 中 新 标本 的 类 别 。 确 定 连续 值 (如 温度 和 股 
票 价 格 ) 也 称 为 未 来 价值 预测 。 预 测 需 要 诸如 回归 分 析 的 方法 作为 基本 方法 或 多 变量 分 析 
作为 更 高 级 的 方法 。 实 际 上 ， 这 些 分 析 方 法 已 经 或 多 或 少 地 独立 于 数据 挖掘 而 开发 。 然 
而 ， 在 本 书 中 我 们 认为 它们 是 数据 挖掘 的 一 种 扩展 ， 并 将 它们 作为 社交 大 数据 挖掘 的 关键 
技术 之 一 分 别 进行 叙述 。 基 于 两 个 或 多 个 现 有 分 类 器 的 组 合 ， 总 体 地 学 习 如 何 创 建 比 每 个 
原始 分 类 器 更 准确 的 分 类 器 。 

即使 事先 不 知道 数据 的 类 别 ， 也 可 以 定义 数据 之 间 的 相似 度 。 相 似 性 的 相反 概念 是 不 
相似 性 或 距离 。 基 于 定义 的 相似 性 ， 将 集合 中 的 数据 分 组 到 彼此 相似 的 相同 组 中 称 为 聚 类 
分 析 或 聚 类 ， 这 也 是 数据 挖掘 的 基本 技术 之 一 。 与 分 类 不 同 ， 聚 类 不 要 求 提前 知道 聚 类 的 
名 称 和 特性 。 通 常 使 用 诸如 分 层 聚 集 方法 和 非 分 层 丰 均值 方法 的 技术 来 进行 聚 类 。 有 前 景 
的 聚 类 应 用 包括 发 现 相 似 顾 客 群 体 以 用 于 营销 。 

可 以 检测 异常 值 或 与 标准 值 不 同 的 值 的 数据 挖掘 任务 称 为 异常 检测 。 有 基于 统计 模 
型 、 数 据 距 离 和 数据 密度 的 异常 值 检测 方法 。 也 有 使 用 聚 类 和 分 类 查找 异常 值 的 替代 方 
法 。 异 常 值 检测 已 经 用 于 诸如 检测 信用 卡其 诈 或 网 络 人 侵 的 应 用 。 
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5.2 技术 问题 和 相关 技术 


这 里 我 们 将 总 结 数据 挖掘 及 其 外 围 技术 之 间 的 关系 ， 以 便 更 好 地 理解 数据 挖掘 的 特 
征 。 由 于 存在 诸如 数据 库 、 信 息 检索 和 Web 搜索 (如 ， 搜 索引 擎 ) 之 类 的 与 数据 挖掘 相 
关 的 各 种 技术 ， 因 此 下 面 将 描述 数据 挖掘 和 这 些 技术 之 间 的 关系 。 

数据 库 是 一 种 用 于 有 效 地 管理 和 访问 社交 大 数据 应 用 所 使 用 的 大 量 数据 的 机 制 。 专 用 
于 数据 库 的 数据 结构 、 操 作 和 约束 的 描述 符 统 称 为 数据 模型 。 自 初期 以 来 ， 网 络 (或 图 
形 ) 和 分 层 结构 (或 树 ) 经 常 被 用 作 数 据 模型 。 前 者 和 后 者 分 别称 为 网 络 数据 模型 和 分 
层 数 据 模 型 。 

ME, 关系 (也 称 为 表 ) 、 对 象 和 半 结 构 化 数据 (例如 ，XML) 已 被 广泛 用 作 数 据 模 
型 ， 并 分 别称 为 关系 模型 、 面 向 对 象 模 型 和 半 结 构 化 模型 。 

此 外 ， 根 据 数据 库 所 基于 的 数据 模型 ， 它 们 还 可 以 被 分 类 为 分 层 数 据 库 、 网 络 数据 
库 、 关 系数 据 库 、 面 向 对 象 数 据 库 、XML 数据 库 等 。 通 常 ， 作 为 数据 挖掘 目标 的 大 量 数 
据 集合 是 由 这 样 的 数据 库 来 管理 的 。 管 理 数 据 库 的 软件 是 DBMS, 

数据 仓库 与 数据 库 类 似 。 数 据 仓库 基于 顾客 、 公 司 决 策 所 需 的 销售 等 关注 点 统一 各 种 
信息 源 。 关 键 任 务 使 用 的 事务 数据 库 是 数据 仓库 的 重要 来 源 之 一 。 为 了 从 时 间 角 度 分 析 这 
样 的 信息 源 所 生成 的 数据 ， 数 据 仓库 中 的 数据 通常 不 更 新 ， 而 是 只 添加 ， 因 此 ， 过 去 的 数 
据 继 续 保 持原 样 。 这 样 的 数据 称 为 时 间 序 列 数 据 。 用 户 通过 挖掘 或 分 析 数 据 仓 库 中 的 数据 
做 出 决策 。 数 据 仓库 通常 构建 在 关系 数据 库 或 专用 的 多 维 数据 库 之 上 。 男 外 ,集中 管理 相 
关 数 据 的 容器 有 时 称 为 存储 库 。 例 如 ， 由 搜索 引擎 疏 取 的 页 面 和 链接 存储 在 专用 存储 
库 中 。 

接 下 来 ， 在 信息 检索 中 ， 根 据 由 从 文本 内 容 提 取 的 特征 向 量 组 成 的 向 量 空间 模型 来 检 
索 与 用 户 指 定 的 搜索 词 相似 的 信息 。 文 档 特征 向 量 的 每 个 分 量 是 TFIDF [术语 频率 (term 
frequency) x 反 向 文档 频率 (inverse document frequency) ] 值 ， 它 是 包含 在 文档 中 的 每 个 
搜索 词 的 特征 。 简 单 地 说 ，TFIDF 考虑 文档 内 特定 搜索 词 的 频率 和 包含 该 词 的 文档 在 整个 
文档 集中 的 稀少 程度 。 另 一 方面 ， 也 可 在 搜索 词 中 采用 特征 向 量 。 在 这 种 情况 下 ， 每 个 文 
档 中 所 包含 的 搜索 词 的 TFIDF 是 词 向 量 的 每 个 分 量 。 向 量 空间 模型 基于 称 为 词 文档 矩阵 的 
矩阵， 其 列 和 行 分 别 对 应 于 这 两 种 向 量 。 通 过 将 查询 视 为 仅 包 含 搜索 词 的 虚拟 文档 ， 查 询 
可 用 与 通常 文档 相同 的 特征 向 量 来 表示 。 可 以 根据 与 查询 相对 应 的 虚拟 文档 和 所 有 正常 文 
档 之 间 的 相似 值 (例如 ， 使 用 特征 向 量 的 余弦 距离 ) 来 排序 满足 查询 的 两 个 或 更 多 文档 。 
通常 ， 基 于 文档 文本 内 容 的 分 析 ， 可 以 执行 文档 的 分 类 和 聚 类 。 这 样 的 技术 统称 为 文 
本 挖掘 或 更 一 般 地 内 容 挖掘 。 另 一 方面 ， 网 页 链接 结构 的 分 析 称 为 结构 挖掘 或 链接 挖掘 。 
通过 内 容 挖 气 和 通过 对 Web 特有 链接 结构 的 结构 挖掘 分 析 页 面 内 容 ，Web 搜索 合成 分 析 
结果 并 根据 它们 来 对 检索 到 的 页 面 进行 排名 。 特 别 地 ， 在 对 页 面 所 包含 的 文本 的 内 容 挖掘 
的 应 用 中 ， 如 果 与 搜索 词 对 应 的 特征 词 出 现在 页 面 的 标题 或 锚 文 本 (链接 中 的 文本 ) 中 ， 
则 该 词 的 TFIDF 值 比 通常 的 加 权 更 高 。 在 分 析 页 面 的 链接 结构 时 ，HITS 在 搜索 时 仪 计算 
与 搜索 结果 相关 的 页 面 排名 ， 而 PageRank 在 搜索 之 前 则 会 计算 Web 上 所 有 页 面 的 排名 。 
总 之 ， 可 以 认为 ，Web 搜索 是 Web 的 内 容 挖 气 和 结构 挖掘 的 应 用 。 与 数据 挖掘 直 接 欠 缺 
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的 传统 技术 学 科 ( 如 统计 分 析 、 机 器 学 习 、 模 式 识别 ) 相 比 ， 数 据 挖掘 与 它们 的 不 同 之 
处 在 于 ， 它 是 对 大 规模 数据 处 理性 能 问题 的 固有 意识 。 这 些 将 在 下 面 简 要 概述 。 

首先 ， 我 们 周围 的 全 球 数据 正在 迅速 增长 。 根 据 IDC [IDC 2008] 的 调查 ， 哪 怕 最 近 
几 年 才 采 用 ， 据 估计 2006 年 生产 和 复制 的 全 球 数据 为 161 EB ( 艾 字 节 ) ， 而 到 2011 年 已 
经 增长 了 10 fF ( 即 1.8ZB)。 从 现在 开始 ， 数 据 挖掘 不 得 不 对 待 这 种 日 益 增 长 的 数据 ， 即 
大 数据 。 

最 后 ， 即 使 数据 量 增 加 ， 也 需要 实际 处 理 时 间 可 行 的 算法 ， 以 及 实现 这 种 算法 的 系 
统 。 处 理 时 间 的 增加 基本 上 与 数据 量 的 增加 成 比例 ， 通 常 称 为 线性 处 理 时 间 。 换 名 话说， 
线性 保证 了 即使 数据 量 增加 ， 处 理 时 间 也 可 以 通过 某 种 手段 提高 吞吐 量 以 维持 在 实用 范围 
内 。 算 法 或 其 实现 系统 维持 这 种 线性 的 能 力 被 称 为 可 扩展 性 。 那 么 ， 如 何 实现 可 扩展 性 就 
成 了 大 数据 时 代 的 数据 挖掘 中 出 现 的 技术 问题 之 一 。 

接 下 来 ， 关 于 大 数据 的 处 理性 能 ， 除 了 可 扩展 性 之 外 ,还 存在 另 一 个 所 谓 高 维度 的 问 
题 。 在 一 些 情况 下 ， 数 据 挖掘 将 目标 数据 表示 为 具有 许多 属性 的 对 象 或 许多 维度 的 向 量 。 
例如 ， 根 据 应 用 ， 对 象 属 性 的 数量 和 向 量 的 维度 可 以 非常 大 ， 类 似 于 文档 属性 的 数量 。 与 
这 种 现象 相关 的 问题 有 时 被 称 为 维 数 灾难 。 例 如 ， 在 这 种 情况 下 ， 在 每 个 维度 以 固定 比率 
收集 样本 数据 时 ， 存 在 样本 尺寸 相对 于 维度 尺寸 指数 增加 的 问题 。 数 据 挖 掘 需要 适当 地 处 
理 与 维 数 灾难 相关 的 这 些 问题 。 

数据 挖掘 的 当务之急 还 不 限于 数据 大 小 或 维 数 的 增加 。 要 处 理 的 数据 结构 的 复杂 性 也 
会 随 着 大 数据 应 用 领域 的 广泛 传播 而 成 为 一 个 问题 。 虽 然 常规 数据 挖掘 主要 针对 结构 化 数 
据 ， 但 是 随 着 互联 网 的 发 展 ， 处 理 图 形 或 网 络 (例如 Web) 以 及 半 结 构 化 数据 (如 XML) 
的 机 会 也 在 增加 。 此 外 ,传感器 网 络 每 时 每 刻 所 产生 的 数据 本 质 上 也 是 时 间 序 列 数据 ， 并 
且 如 果 使 用 GPS (全 球 定位 系统 )， 则 位 置信 息 将 被 添加 到 时 间 序 列 数 据 中 。 可 以 认为 ， 
HEC (EH Twitter 中 的 文章 ) 也 是 一 种 时 间 序 列 数据 。 非 结构 化 的 多 媒体 数据 ， 例 如 照片 、 
视频 和 声音 也 是 数据 挖掘 的 目标 。 此 外 ， 在 分 配 数据 挖掘 的 目标 数据 的 情况 下 ， 还 会 引起 
诸如 通信 成 本 、 数 据 集成 和 安全 性 的 问题 。 


5.3 数据 挖掘 任务 


如 上 所 述 ， 数 据 挖掘 的 主要 任务 包括 : 
。 关联 规则 挖掘 


。 RK 

。 分 类 和 预测 

。 异常 值 检 测 

我 们 已 经 解释 了 数据 挖掘 、 数 据 库 系 统 、 信 息 检索 和 Web 搜索 之 间 的 关系 。 在 这 里 ， 
通过 解释 数据 挖掘 不 同 于 数据 库 系统 或 信息 检索 的 要 点 ， 将 进一步 澄清 数据 挖掘 的 特征 。 

数据 库 搜索 和 信息 检索 两 者 允许 用 户 指定 关于 所 需 数据 的 条 件 并 且 搜 索 一 组 数据 中 满 


足 指 定 条 件 的 数据 。 男 一 方面 ， 给 定 一 组 数据 ， 数 据 挖掘 由 在 发 现 表 示 数 据 特征 的 各 种 结 
构 、 关 系 和 规则 。 形 象 地 说 ， 给 定 一 组 搜索 数据 ， 数 据 控 掘 就 会 去 尝试 发 现 该 集合 的 搜索 
条 件 。 数 据 挖掘 发 现 的 重要 结构 、 关 系 和 规则 称 为 模式 或 模型 。 一 般 来 说 ， 根 据 观察 到 的 
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现象 的 数据 (或 效应 ) 探索 和 发 现 现象 的 本 质 〈 或 原因 ) ， 这 在 工程 中 被 称 为 逆 问 题 。 可 
以 说 ， 数 据 挖 气 在 这 个 意义 上 是 一 种 逆 问 题 。 

在 更 广泛 的 技术 背景 下 ， 数 据 挖掘 可 定位 为 数据 库 中 的 知识 发 现 (Knowledge Discov- 
ery in Database，KDD) 。 通 常 KDD 从 数据 仓库 或 数据 库 中 获取 数据 ， 并 产生 知识 。KDD 由 
以 下 步骤 组 成 ( 见 图 5.1)。 


hdl 清二 WR Be . 3 


Ha 选择 知识 表示 


Al5.1 KDD 过 程 


1. 数据 清理 : 从 干扰 一 致 性 的 数据 源 中 删除 数据 OR), 

2. 数据 整合 : 如 果 需 要 ， 统 一 两 个 或 多 个 数据 源 ， 并 将 它们 存储 在 数据 库 中 。 

3. 数据 简化 和 选择 : 从 数据 库 中 选择 数据 的 基本 部 分 作为 数据 挖掘 的 目标 。 此 外 ， 
将 目标 数据 减少 到 可 以 实际 处 理 的 数据 量 。 

4. 数据 转换 : 将 目标 数据 转换 为 适合 数据 挖掘 的 数据 结构 。 

5. 数据 挖掘 使 用 这 一 部 分 所 述 的 智能 方法 从 转换 的 数据 中 提取 模式 。 

6. 模式 评估 : 根据 一 定 措施 (兴趣 水 平 ) 来 评估 所 提取 的 模式 ， 并 且 将 用 户 真 正 感 
兴趣 的 模式 识别 为 知识 。 

7. 知识 表示 : 表达 和 可 视 化 所 识别 的 知识 ， 以 有 效 地 展示 。 

因此 ， 数 据 挖掘 是 知识 发 现 过 程 中 的 重要 步骤 之 一 。 此 外 ，KDD 不 是 单 向 过 程 
是 通常 伴随 着 基于 当前 获得 知识 的 任何 先前 步 又 的 反馈 循环 。 


5.4 基本 数据 结构 


在 本 节 中 ， 我 们 将 解释 数据 挖掘 处 理 的 目标 数据 结构 。 在 大 数据 时 代 ， 数 据 结构 的 多 
样 性 和 数据 生成 的 速度 还 有 数据 的 大 小 ， 是 关键 问题 。 这 里 ， 数 据 集合 被 特别 地 称 为 数据 
集 。 这 些 数据 的 基本 结构 总 结 如 下 。 

(1) 记录 

在 数据 挖掘 的 许多 情况 下 ， 目 标 数据 集 表示 为 记录 集合 。 这 种 情况 下 的 数据 等 同 于 关 
系数 据 库 ( 称 为 元 组 ) 中 的 记录 ， 即 结构 化 数据 。 每 个 记录 由 一 个 或 多 个 属性 〈 称 为 列 ) 
组 成 〈 见 图 5.2) 。 通 常 ， 可 以 标识 记录 的 属性 或 多 个 属性 的 组 合 称 为 关键 属性 。 在 本 书 
中 ， 仅 包含 单个 属性 的 键 称 为 记录 标识 符 。 

首先 ， 属 性 可 以 被 分 为 分 类 属性 〈 即 ， 定 性 属性 ) 和 数字 属性 ( 即 ， 定 量 属 性 )。 
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分 类 属性 又 可 以 进一步 分 类 为 其 值 仅 需要 相互 区 分 的 属性 以 及 其 值 具有 序数 关系 的 属 
性 。 前 者 称 为 标 称 属性 ， 其 值 可 以 通过 等 号 (=) 或 不 等 号 (1 =) 进行 比较 。 后 者 称 
为 序数 属性 ， 除 了 等 式 之 外 其 值 可 以 按 级 数 进 行 比较 。 
通常 ， 根 据 数值 属性 的 种 类 ， 除 了 对 它们 进行 比较 之 外 ， 还 可 以 对 值 执行 诸如 加 法 和 
乘法 的 操作 。 

此 外 ， 属 性 还 可 以 根据 值 域 的 特性 ， 特 别 是 以 基数 作为 集合 来 分 类 。 用 实数 表示 的 属 
性 被 称 为 连续 属性 。 另 一 方面 ， 如 果 属 性 值 的 域 集 具 有 与 自然 数 的 子 集 相同 的 特性 ， 则 这 
样 的 属性 被 称 为 离散 属性 。 如 果 离 散 属性 值 的 数量 有 限 ， 则 这 样 的 属性 被 称 为 多 值 属性 ， 
特别 地 ， 如 果 该 值 可 以 由 0 或 1 表示 ， 则 该 属性 被 称 为 二 元 属性 或 二 分 属性 。 

请 注意 ， 在 数据 库 字段 中 也 有 多 值 属 性 ， 但 在 这 种 情况 下 ， 属 性 允许 将 一 组 值 ( 集 
A) 作为 其 值 。 因 此 ， 数 据 库 字 段 中 的 多 值 属性 称 为 集合 属性 或 重复 组 ， 以 便 与 数据 挖掘 
中 的 属性 区 分 开 。 
例如 ， 体 热 和 频率 都 是 数值 属性 。 虽 然 体 热 由 连续 值 表示 ， 但 是 频率 却 由 离散 值 表 
示 。 另 一 方面 ， 诸 如 男性 和 女性 的 性 别 以 及 诸如 轻微 和 严重 的 疾病 状况 是 分 类 属性 的 示 
例 ， 并 且 通 常 由 离散 值 表示 。 此 外 ， 在 性 别 之 间 没 有 次 序 关系 ， 而 疾病 状况 之 间 则 存在 次 
序 关系 。 然而， 这 样 的 分 类 依赖 于 应 用 程序 域 。 

此 外 ， 在 本 书 中 ， 术 语 变量 和 属性 可 互 换 使 用 。 关 系数 据 库 管理 系统 通常 用 于 存储 记 
录 的 集合 。 记 录 数 据 的 定义 、 查 询 和 更 新 可 以 使 用 称 为 SQL 的 国际 标准 语言 来 执行 。 

(2) 事务 

特别 地 ， 如 果 除 记录 标识 符 之 外 的 主 属性 还 包含 一 组 属性 ， 则 这 种 记录 数据 简称 为 事 
务 。 请 注意 ， 这 样 的 事务 与 数据 库 领域 中 的 处 理 单元 的 事务 的 概念 不 完全 相同 。 同 时 购买 
的 物品 的 组 合 ， 无 论 是 在 网 上 商店 还 是 实体 商店 都 是 事务 的 典型 例子 ( 见 图 5.3)。 


意大利 酒 


图 5.2 记录 示例 图 5.3 事务 示例 


(3) 数据 矩阵 

如 果 记 录 的 所 有 非 标识 符 属 性 都 是 数字 属性 ， 则 记录 数据 可 以 被 视 为 多 维 空间 上 的 
点 。 在 这 种 情况 下 ， 记 录 的 标识 符 对 应 于 点 的 唯一 名 称 。 如 果 不 包括 其 标识 符 的 记录 被 视 
为 向 量 ， 则 数据 集 构成 数据 矩阵 。 请 注意 ， 如 果 允 许 每 个 向 量 对 应 于 和 矩阵 的 行 ( 列 )， 则 
标识 符 可 以 用 行列) 的 位 置 替 换 。 类 似 地 ， 可 以 对 已 经 转换 为 数字 属性 的 分 类 属性 做 
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出 数据 矩阵 。 在 聚 类 中 ， 经 常 要 使 用 那些 分 量 是 从 数据 矩阵 直接 计算 数据 距离 的 距离 
矩阵 。 

(4) 序列 数据 、 时间 序 列 数据 、 空 间 数据 和 时 空 数据 

事务 数据 在 生成 时 与 时 间 显 式 相关 。 两 个 或 多 个 事务 的 序列 称 为 时 间 序列 或 流 。 通 过 
设置 在 特定 地 点 周围 的 传感器 网 络 获得 的 诸如 红外 线 、 温 度 、 照 明和 二 氧化 碳 的 传感器 数 
是 时 间 序列 数据 的 示例 。 即 使 没有 关于 时 间 的 明确 信息 ， 数 据 的 顺序 也 可 能 是 重要 的 。 
通常 称 这 种 数据 为 系列 或 序列 。 生 物 信息 学 中 DNA 的 碱 基 序 列 就 是 一 个 这 样 的 实例 。 具 
有 诸如 地 理 信息 而 不 是 时 间 的 空间 信息 数据 被 称 为 空间 数据 。 此 外 ， 通 过 与 GPS 接收 器 一 
起 移动 而 产生 的 空间 数据 也 可 以 变 成 时 空 数据 。 通 过 考虑 传感器 的 安装 位 置 ， 即 使 它们 不 
可 移动 ， 由 传感器 网 络 产 生 的 整 组 数据 也 可 以 变 成 一 种 时 空 数据 。 包 含 地 理 信息 的 推 文 和 
交通 中 的 签 入 / 签 出 数据 也 可 以 被 视 为 时 空 数据 的 示例 。 

(5) 半 结 构 化 数据 和 图 形 

一 般 来 说 ， 数 据 和 它们 之 间 的 关系 可 以 分 别 
由 图 的 节点 和 边 表示 。 例 如 ， 如 果 页 面 和 页 面 之 | 
间 的 链接 分 别 表示 为 图 形 的 节点 和 边 ， 那 么 整个 
Web 或 其 部 分 就 可 以 用 图 形 来 建 模 ( 见 图 5.4)。 
社交 数据 中 的 关注 者 关系 和 朋友 关系 也 可 以 由 图 
表示 。 化 合 物 可 以 直接 用 图 表 表示 。 此 外 ， 如 果 
将 两 块 数据 之 间 的 相似 度 变换 为 对 应 于 数据 块 的 E 国 
节点 之 间 边 的 权重 ， 则 可 以 将 数据 集合 建 模 为 图 “ 国 于 = 
形 。 请 注意 ， 图 表 中 将 树 或 半 结 构 化 数据 作为 特 图 5 4 图 的 示例 
殊 情况 处 理 。XML 是 用 于 描述 网 页 或 互联 网 上 
交换 数据 的 数据 格式 ， 它 是 半 结 构 化 数据 类 型 的 实例 ( 见 图 5.5)。 


Si 


<book format= ”hardback”> <book format= ”hardback”> 

<author> <author> 

<name>Jeff Ullman </name> <name>Hiroshi Ishikawa</name> 

<office>Gates Building</office> <office> 

</author> <building>1.2</building> 

<author> <room>S210</room> 

<name>Jennifer Widom</name> </office> 

</author> </author> 

<title>A First Course in Database Systems</title> <title>Object-Oriented Database System</title> 
<publisher>Prentice-Hall</publisher> <publisher>Springer Verlag</publisher> 
</book> </book> 

a) b) 


图 5.5 XML 数据 示例 


(6) 媒体 数据 

文本 范围 从 没有 结构 的 纯 文 本 到 通过 HTML 或 XML 格式 化 的 半 结 构 化 文本 。 文 本 的 
特征 通常 可 以 根据 文本 中 所 包含 的 字符 或 特征 词 的 频率 而 向 量化 。 此 外 ， 多 媒体 数据 包含 
图 像 、 视 频 和 声音 。 多 媒体 数据 由 主要 数据 〈 即 ， 非 结构 化 原始 数据 ) 以 及 次 要 数据 
( 即 ， 作 为 对 主要 数据 注释 的 元 数据 ) 来 描述 。 

有 关 数 据 集 (这 是 数据 集合 ) 的 问题 将 在 本 节 结 尾 处 介绍 。 如 前 所 述 ， 数 据 的 大 小 
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(数量 ) 与 数据 挖 气 的 可 扩展 性 强 相关 。 男 一 方面 ， 数 据 属 性 的 数量 (也 称 为 维度 ) 将 会 
导致 在 高 维度 情况 下 维 数 灾难 的 问题 。 这 两 个 问题 都 与 数据 质量 有 关 。 


5.5 数据 质量 


在 本 节 中 ， 我 们 将 讨论 与 数据 质量 相关 的 问题 。 

大 数据 在 本 质 上 是 模糊 的 。 因 此 ， 数 据 挖掘 必须 处 理由 于 各 种 原因 而 不 总 是 完全 正确 
的 数据 。 

首先 ， 在 数据 集中 可 能 存在 噪声 。 必 须 与 单纯 的 噪声 区 分 开 的 概念 是 偏离 值 或 异常 
值 。 虽 然 去 除 噪声 通常 能 产生 更 好 的 数据 挖 气 结果， 但 是 通过 异常 值 的 检测 有 时 也 可 能 会 
发 现 稀 有 和 重要 的 模式 或 现象 。 然 而 ， 通 常 难以 清楚 地 区 分 两 者 。 具 体 数据 是 否 为 噪声 或 
异常 值 应 根据 应 用 领域 决定 。 

此 外 ， 数 据 中 可 能 包含 缺陷 值 。 数 据 集 中 可 能 包含 两 个 或 更 多 个 相同 的 数据 和 相互 矛 
盾 的 数据 。 由 于 数据 的 质量 可 能 会 极 大 影响 数据 挖掘 的 结果 ， 所 以 这 些 问 题 必须 按 如 下 步 
又 适当 地 处 理 。 

(1) 预 处 理 

考虑 到 数据 存在 上 述 提 到 的 特点 ， 在 数据 挖掘 之 前 有 必要 进行 处 理 。 
通常 通过 以 下 步 又 执行 数据 预 处 理 。 

1. 数据 清理 

2. 数据 整合 

3. 数据 简化 和 选择 

4. 数据 转换 
下 面 将 逐步 描述 该 处 理 过 程 。 

a) 数据 清理 

与 数据 相关 的 缺陷 可 以 通过 数据 清理 来 解决 。 也 就 是 说 ， 通 过 诸如 预测 、 合 并 和 聚 类 
的 一 些 方法 去 除 噪声 。 在 合并 中 ， 每 个 值 由 包含 它 的 部 分 表示 。 当 偏离 值 被 认为 会 对 正常 
模式 有 任何 不 良 影响 时 ， 像 噪声 一 样 删除 它 。 在 某 些 情况 下 ， 删 除 包 含 缺 陷 值 的 属性 或 整 
个 记录 。 在 其 他 情况 下 ， 缺 陷 值 由 某 些 值 补 充 ， 例 如 公共 值 ( 即 默 认 值 ) 或 忽略 。 在 相同 
数据 相 乘 的 情况 下 ， 仅 留 一 个 ， 删 除 其 他 的 。 在 数据 之 间 不 一 致 的 情况 下 ， 通 过 使 用 域 的 
知识 或 限制 来 解决 。 不 通过 去 除 噪声 或 偏离 值 ， 一 种 不 易 受 这 些 值 影响 的 数据 挖掘 算法 可 
以 作为 替代 的 解决 方案 。 

b) 数据 整合 

基本 上 相同 的 数据 有 时 被 分 散 并 存储 在 两 个 或 更 多 数据 库 中 。 在 这 种 情况 下 ， 具 有 相 
同 内 容 属性 的 名 称 、 值 单位 或 数据 结构 可 以 随 数据 库 的 不 同 而 不 同 。 然 后 ， 通 过 使 用 每 个 
数据 库 的 元 数据 ( 即 ， 关 于 数据 的 数据 ) 来 解决 这 样 的 异 构 性 并 且 统 一 数据 库 。 

c) 数据 简化 和 选择 

当然 ， 我 们 也 希望 使 大 数据 小 到 能 够 对 它们 进行 实际 处 理 。 以 下 某 些 方法 可 用 于 此 
目的 。 

。 聚合 (例如 ， 平 均值 与 和 ) 可 以 减少 数据 大 小 。 
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© 采样 也 可 以 减 小 数据 大 小 。 

。 基于 合并 或 箭 的 数值 离散 化 可 以 减少 特殊 值 的 数量 。 

。 可 以 基于 应 用 领域 的 领域 知识 或 通过 不 同属 性 之 间 的 相关 性 进行 分 析 来 删除 不 相 
关 或 元 余 的 属性 。 

。 利用 系统 方法 可 以 发 现 属性 的 最 佳 组 合 ， 以 通过 穷尽 搜索 产生 良好 的 结果 。 

© 主 成 分 分 析 (Principal Component Analysis, PCA) 可 以 减少 维度 〈 即 属性 的 数量 ) 。 

d) 数据 转换 

为 了 适当 地 组 合 两 个 或 更 多 属性 的 值 或 者 强调 重要 值 的 部 分 ， 可 以 使 用 值 的 归 一 化 
(例如 ，min - max， z — score” ) Bm eae (例如 ， 绝 对 值 、 对 数 ) 来 转换 值 。 

(2) 后 期 处 理 

像 数 据 预 处 理 一 样 ， 数 据 的 后 期 处 理 也 是 KDD 的 重要 过 程 之 一 , 虽然 数据 预 处 理 与 输 
入 值 的 质量 相关 ， 但 数据 后 期 处 理 与 最 终结 果 的 质量 相关 。 作 为 数据 后 期 处 理 ， 最 终结 果 
被 评 佑 以 便 找 到 在 应 用 领域 中 真正 有 意义 的 模式 。 然 后 ， 结 果 会 被 表示 为 用 户 可 以 理解 的 
知识 。 为 此 ， 有 时 需要 对 结果 进行 可 视 化 处 理 。 

在 本 部 分 的 其 余部 分 ， 关联 规则 挖掘 、 夷 类 、 分 类 和 预测 将 被 描述 为 数据 挖掘 的 基本 
BA, Wiha, Web 结构 ，Web 内 容 和 Web 访问 日 志 挖掘 将 被 解释 为 Web 挖 气 ， 最 后 再 来 
解释 与 它 相 关 的 深层 Web 挖掘 和 信息 提取 。 此 外 ,将 描述 诸如 树 、XML、 图 形 和 多 媒体 
数据 的 媒体 挖掘。 


[Han et al. 2006] J. Han, M. Kamber: Data Mining: Concepts and Techniques, Second Edition, 
Morgan Kaufmann (2006). 

[IDC 2008] IDC: The Diverse and Exploding Digital Universe (white paper) (2008). Available 
athttp:/ /www.emc.com /collateral/analyst-reports/diverse-exploding-digital-universe. 
pdf accessed 2014 

[Tan et al. 2006] P-N. Tan, M. Steinbach and V. Kumar: Introduction to Data Mining, Addison- 
Wesley (2005). 


”标准 分 数 (standard score) 也 叫 z 分 数 (z-score) 是 一 个 分 数 与 一 个 平均 数 的 差 再 除 以 标准 差 的 过 
程 。 一 一 译 者 注 
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本 章 介 绍 基于 频繁 出 现 的 项 目 组 合 可 发 现 的 关联 规则 。 首 先 ， 将 叙述 关联 规则 的 基本 
概念 和 类 型 以 及 应 用 。 接 下 来 ， 本 章 将 解释 计算 频繁 项 目 集 的 基本 算法 ， 并 基于 它们 生成 
关联 规则 。 


6.1 关联 分 析 的 应 用 


首先 ,将 从 有 用 性 的 观点 来 解释 作为 构建 大 数据 应 用 中 的 假设 的 基本 技术 之 一 的 关联 
规则 挖掘 或 关联 分 析 。 顾 客 在 超市 中 一 起 购买 的 项 目 分 析 通 常 被 称 为 市 场 篮子 分 析 。 如 果 
可 以 分 析 频 繁 一 起 购买 的 一 组 项 目 ， 则 结果 可 以 用 于 项 目的 有 效 展 示 。 

例如 ， 可 以 考虑 以 下 销售 策略 : 

。 将 包含 在 频繁 项 目 中 的 所 有 项 目 都 布置 得 尽 可 能 彼此 人 靠近， 以 增加 顾客 一 起 购买 
它们 的 机 会 。 

。 集合 中 的 所 有 项 目 拥 绑 销 售 ， 以 使 得 顾客 一 起 购买 它们 。 

。 集合 中 的 所 有 项 目 布置 成 尽 可 能 彼此 远离 ， 以 便 增 加 顾客 在 它们 之 间 移 动 时 购买 
其 他 项 目 以 及 项 目 集 的 机 会 。 

。 集合 中 的 一 个 项 目 以 便宜 价格 出 售 ， 从 而 提高 集合 中 男 一 个 项 目的 利润 率 ， 然 后 
将 所 有 项 目 捆绑 销售 ， 以 便 增加 总 利润 。 

这 里 ， 包 含 在 购物 得 (或 购物 车 ) 中 的 一 组 项 目 被 称 为 市 场 篮 子 事务 或 事务 。 请 注 
意 ， 项 目 不 仅 可 以 代表 具体 商品 ， 还 可 以 代表 人 物 、 活 动 、 页 面 、 术 语 和 抽象 概念 。 还 需 
要 注意 ， 事 务 的 概念 与 数据 库 领 域 中 的 事务 概念 不 同 。 

总 之 ， 关 联 分 析 是 进行 市 场 篮 子 分 析 ， 并 且 分 析 结 果 是 发 现 规则 ， 例 如 ， 如 果 许 多 顾 
客 购买 一 个 特定 项 目 ， 则 他 们 通常 也 会 一 起 购买 另 一 个 特定 项 目 。 当 然 ， 关 联 规则 挖掘 的 
应 用 也 不 限于 市 场 篮子 分 析 。 一 些 搜索 引擎 中 的 应 用 程序 能 够 发 现 经常 出 现在 同一 网 页 上 
的 术语 组 合 模 式 或 在 搜索 查询 中 经 常 且 同 时 指定 的 搜索 术语 的 组 合 模式 。 在 其 他 应 用 中 也 
能 够 发 现 频繁 出 现在 Web 服务 器 的 访问 历史 中 的 访问 模式 (如 ,访问 网 页 的 序列 )。 使 用 
关联 分 析 还 可 以 发 现在 社交 数据 中 频繁 且 同 时 指定 的 关注 者 和 主题 标签 的 组 合 。 此 外 ， 关 
联 分 析 的 应 用 (如 基因 表达 中 的 相互 作用 的 说 明 ) 也 已 经 在 生物 学 中 迅速 传播 。 

因此 ， 虽 然 本 章 使 用 日 常 商 品 作为 示例 项 目 说 明了 关联 规则 的 挖掘 ， 但 是 请 注意 ， 该 
技术 可 用 于 更 广泛 的 应 用 。 

在 挖 据 关联 规则 中 ， 有 必要 计算 项 目的 组 合 ， 其 数量 通常 可 能 非常 大 。 这 是 因为 如 果 
不 同 项 目 〈 即 集合 的 元 素 ) 的 数量 等 于 N， 则 组 合 (TÆ) 项 目的 数量 将 等 于 2"。 以 子 集 
作为 其 元 素 的 集合 被 称 为 原始 集合 的 需 集 。 因 此 ， 需 集 的 大 小 是 原始 集合 大 小 的 指数 函数 
的 量 级 。 因 此 ， 如 果 原 始 集合 由 $ 表示 ， 则 老 集 通常 由 人 表示。 因为 组 合 的 总 数 变 得 非常 
大 ， 而 实际 上 有 可 能 不 会 发 生 ， 所 以 仅 考虑 频繁 项 目 。 然 而 ， 在 大 数据 应 用 中 ， 设 计 能 够 
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有 效 地 找到 项 目的 频繁 组 合 的 算法 是 非常 重要 的 。 


6.2 基本 概念 


首先 ， 将 解释 挖掘 关联 规则 所 需 的 基本 概念 。 这 里 ， 


设 1 是 每 个 项 目 ， 则 T= 141， 


D, =, L) 是 所 有 项 目的 集合 。 如 上 所 述 ， 项 目 不 仅 可 以 表示 购物 篮 中 的 日 常 商品 ， 而 


且 也 可 以 表示 更 一 般 的 概念 ， 例 如 事件 、 人 和 术语 。 


设 T 是 每 个 事务 。 因 此 , 7 是 一 组 项 目 ， 由 1T(7TC7) 包 含 。 事务 标识 符 TID (也 称 为 


记录 标识 符 ，RID) 与 每 个 事务 相关 联 。 因 此 ， 事 务 通过 其 


库 ， 并 将 其 认为 是 挖掘 目标 


(定义 ) 关联 规则 
© A>B (ARA B) 


。 那么 刀 成 为 所 有 事务 的 集合 。 


使 用 上 述 基 本 概念 ， 关 联 规则 可 以 表示 如 下 : 


TID 来 识别 。 设 D 为 一 个 数据 


WHA, Be2'’ ( 即 4 和 B 是 项 目 集 ) FHAANB=aSG (Ma). 

接 下 来 ， 作 为 伴随 关联 规则 的 概念 ， 将 定义 支持 度 (更 准确 地 说 ， 支 持 程度 ) 和 置 
fae (更 准确 地 说 ,信任 的 程度 ) 。 支 持 度 是 包括 A 和 B 的 数据 库 D 上 的 事务 的 比率 。 
请 注意 ， 这 样 的 项 目 集 可 以 表示 为 4UB， 而 不 是 4NMB。 男 一 方面 ， 置 信和 度 c 是 在 D 中 包 
含 4 的 事务 中 包含 4 和 8B 的 事务 的 比率 。 换 句 话 说 ， 支 持 度 是 关联 规则 的 重要 性 的 度量 ， 


而 置信 和 度 是 关联 规则 的 可 靠 


性 的 度量 。 
使 用 概率 P， 支 持 度 和 置信 度 将 以 男 一 种 方式 表示 如 下 : 


(定义 ) 关联 规则 的 支持 度 和 置信 度 
© SHE (ASB) =P(AUB) 
。 fale (AS>B) =P( BIA) 

其 中 ，P(4AUB) 和 P(B14) 分 别 表示 概率 和 条 件 概率 。 后 者 是 B 在 4 发生 的 条 件 下 发 生 的 


概率 。 


接 下 来 ， 将 定义 关联 规则 的 强度 。 当 给 出 
表示 的 最 小 置信 和 度 时 ， 具 有 同时 不 小 于 最 小 支持 度 和 不 小 于 最 小 置信 和 度 的 关联 规则 被 称 为 


强 关 联 规则 。 
一 组 项 目 简称 为 项 目 集 


如 果 项 目 集 的 支持 计数 不 小 于 最 小 支持 度 x 1 D1 


H min_sup 表示 的 最 小 支持 度 和 由 min_conf 


。 由 天 个 不 同 项 目 组 成 的 项 目 集 用 天 项 目 集 (k — itemset ) 表 
示 。 项 目 集 的 出 现 次 数 等 于 包含 项 目 集 的 事务 数 。 项 目 集 的 出 现 次 数 称 为 支持 计数 。 


( 称 为 最 小 支持 计数 ) ， 则 称 项 目 


集 满足 最 小 支持 度 。 满 足 最 小 支持 度 的 项 目 集 称 为 频繁 项 目 集 或 大 项 集 ， 并 且 通 常 由 LL, 表 
示 ， 其 中 表示 构成 项 目 集 的 项 目 数 。 
设 项 目 集 4 的 支持 计数 为 support_count( 4A)。 上 面 介绍 的 支持 度 和 置信 度 可 定义 如 下 . 
(定义 ) 关联 规则 的 支持 度 和 置信 和 度 (回顾 ) 


e 支持 度 (4 一 B) =P(4UB) = 


e 置信 度 (4 一 B) =P(BIA) = 


support_count( AUB) 


support_count 


| D| 


(AUB) 


support_count (A) 


第 6 章 关联 规则 挖掘 71 


例如 , “购买 鱼 的 顾客 也 购买 了 白 葡萄 酒 ” 的 关联 规则 可 以 表示 如 下 : 

ef (MARA) 之 白 葡 萄 酒 (顾客 买 葡萄 酒 ) [支持 度 = 50% ， 置 信 度 = 75% | 

由 于 已 经 定义 了 所 有 必要 的 概念 ， 因 此 我 们 将 会 在 下 面 解释 如 何 执行 关联 规则 挖掘 。 
也 就 是 说 ， 挖 气 关 联 规则 包括 以 下 两 个 步 又 : 

1. 发 现 频繁 的 项 目 集 。 

2. 从 频繁 项 目 集 中 生成 强 规则 。 

在 上 述 两 个 步骤 之 间 ， 第 一 步 的 计算 复杂 度 较 大 ， 因 为 该 步骤 通常 必须 处 理 项 目 集 的 
宕 集 。 因 此 ， 有 效 地 执行 第 一 步 在 挖掘 关联 规则 中 更 重要 。 


6.3 各 种 关联 规则 


到 目前 为 止 ， 我 们 已 经 描述 了 项 目的 简单 关联 规则 ， 还 有 几 种 关联 规则 。 通 常情 况 
下 ， 关 联 规则 可 以 按照 如 下 两 种 或 更 多 方式 分 类 : 

(1) 按 值 的 类 型 分 类 

关于 离散 值 属性 的 关联 规则 称 为 离散 关联 规则 ， 它 可 以 取 有 限 数量 的 值 ， 例 如 属性 
“购买 (项目)” 和 “ 星 级 ”。 

以 下 是 离散 关联 规则 的 示例 。 

。 红酒 (顾客 购买 红 葡 萄 酒 ) 之 奶酪 (顾客 购买 奶酪) 

也 就 是 说 ,属性 “ 购 严 ”具有 离散 的 值 ， 例 如 红 葡 萄 酒 和 奶酪。 

男 一 方面 ， 关 于 数值 属性 的 关联 规则 被 称 为 数值 关联 规则 。 在 许多 情况 下 ， 数 值 属性 
的 整个 范围 被 划分 为 两 个 或 更 多 子 部 分 。 通 常 ， 通 过 包含 值 的 独特 分 段 来 表示 数值 属性 的 
每 个 值 的 方法 称 为 离散 化 。 以 下 是 离散 数值 关联 规则 的 示例 。 

。 25 < 年 龄 <30 (顾客 年 龄 ) 一 白 葡萄 酒 (顾客 购买 白 葡萄 酒 ) 

这 里 ， 上 述 规则 的 左 侧 表 示 作 为 属性 “年 龄 ”的 值 的 分 段 〈 更 确切 地 说 ， 其 标识 符 ， 
即 离散 值 ) 。 

(2) 按 维度 分 类 

出 现在 关联 规则 中 的 属性 被 认为 表示 一 个 维度 。 规 则 可 以 根据 维度 来 分 类 。 以 下 是 仅 
由 单个 属性 “购买 ”组 成 的 一 维 规则 的 示例 。 

。 红酒 (顾客 购买 红酒 ) 之 奶 酷 (顾客 购买 奶 酷 ) 

另 一 方面 ， 下 面 是 由 两 个 属性 ， 即 “购买 ”和 “年 龄 ”组 成 的 多 维 规则 的 例子 。 

。 25 < 年 龄 <30 (顾客 年 龄 ) = AAS (顾客 购买 白 葡萄 酒 ) 

(3) 抽象 度 分 类 

我 们 将 考虑 两 个 或 多 个 规则 的 集合 称 为 规则 集 。 如 果 可 以 在 规则 所 包含 的 项 之 间 考 虑 
基于 抽象 度 的 分 级 关系 ， 则 这 样 的 规则 集 被 称 为 多 级 规则 集 。 例 如 ， 以 下 规则 集 是 多 
级 的 。 

© 20 < 年 龄 <45 (MEFR) 一 葡萄 酒 (顾客 购买 葡萄 酒 ) 

© 30 < 年 龄 <45 (顾客 年 龄 ) 一 红 葡 萄 酒 (顾客 购买 红 葡 萄 酒 ) 

从 概念 上 讲 ， 和 葡萄 酒 比 红 葡 萄 酒 更 加 普遍 ， 而 红 和 葡萄 酒 比 葡萄 酒 更 具 特 色 。 另 一 方 
面 ， 规 则 所 包含 的 项 之 间 没 有 这 种 层次 关系 的 规则 集 则 被 称 为 单 层 规则 集 。 这 种 层次 关系 
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通常 由 专用 知识 库 管 理 。 

(4) 数据 结构 分 类 

根据 是 否 考虑 事务 的 顺序 ， 发 现 频繁 项 目 集 被 分 为 两 个 单独 的 任务 。 前 者 是 系列 数据 
的 关联 规则 挖掘 。 后 者 是 正常 无 序数 据 的 关联 规则 挖掘 。 此 外 ， 关 联 规 则 的 挖掘 可 以 扩展 
到 更 复杂 的 数据 结构 〈 例 如 树 和 图 形 ) 。 


6.4 Apriori 算法 的 概述 


这 里 ，Apriori 算法 [ Agrawal et al. 1993 ] 将 作为 有 效 挖掘 关联 规则 的 基本 算法 进行 介 
绍 。 该 算法 则 在 有 效 地 发 现 频繁 项 目 集 。 换 句 话 说 ， 它 试图 规避 检查 假 频繁 项 目 集 。 

简单 起 见 ， 这 里 将 描述 发 现 无 序 频繁 项 目 集 并 产生 离散 的 、 单 维 与 单 级 关联 规则 的 基 
本 算法 。 为 了 生成 其 他 类 型 的 关联 规则 ， 我 们 所 要 做 的 是 考虑 基本 算法 的 扩展 。 

以 下 原则 适用 于 频繁 项 目 集 。 

(原理 ) Apriori 

。 频繁 项 目 集 的 所 有 子 集 都 是 频繁 的 。 

更 一 般 地 ， 以 下 单调 递减 原理 ， 称 为 向 下 单调 性 ， 对 于 支持 计数 而 言 成 立 。 

(原理 ) 向 下 单调 性 

e X,Ye2'HXCY 
=support_count ( X) = support_count( 了) 

Apriori 算法 的 显著 特征 之 一 是 其 基于 上 述 原 理 (Apriori ) 重复 使 用 天 项 目 集 查找 
(k+1) 项 目 集 的 过 程 。 也 就 是 说 ， 首 先 它 找到 频繁 的 1 项 目 集 L,。 接 下 来 ， 它 使 用 LL 找 
PUFA 2 项 目 集 L,。 进 而 ， 它 使 用 L, 找 到 频繁 的 3 项 目 集 L,。 重 复 该 过 程 ， 直 到 不 能 再 
找到 频繁 的 项 目 集 L;。 这 样 就 可 以 找到 所 有 频繁 项 目 集 L= U,L, 作 为 算法 的 结果 。 

Apriori 算法 基本 上 重复 由 以 下 两 个 步骤 组 成 的 过 程 。 

(1) 连接 步骤 

如 果 获 得 频繁 (k -1) 项 目 集 L，,， 则 算法 可 以 使 用 频繁 的 项 目 集 L, 来 找到 候选 项 
BEC, KH, OAL, WIR, 

Wah, Bel, [7] EAL A W, Ob, (BETH A RAISES A, FARR CBD, 
字典 的 条 目 顺序 ) 对 项 目 进 行 排序 。 这 里 假设 L, ,是 由 (k-1) 个 字段 组 成 的 数据 库 。 

然后 ， 连 接 (Lo La) 可 以 被 认为 是 由 第 一 个 (k-2) 字段 作为 连接 键 的 同一 表 
的 自然 连接 操作 。 

在 这 种 情况 下 的 连接 谓词 可 以 指定 如 下 : 

e (i,[1] =1[1]) AND(/,[2] =1,[2]) AND---AND(/,[k-2] =L,[4-2])AND(1, [A - 
1] <L[k-1]) 

这 里 ， 上 述 谓词 中 的 最 后 条 件 (1,[k-1] <L[k-1]) RE VEEL, AU, ATA 

作为 连接 操作 的 结果 ， 获 得 项 目 集 LL[1]4[2]…L[k-2]j4[k-1]4[k-1]。 上 述 操 
作 将 是 表 L, ,的 自 连接 ， 由 以 下 SQL 命令 表示 。 

e INSERTINTO C, 

SELECT p. item, , p. item,, +++, p.ttem,_,, q. item,_, 
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FROM L, ,p, Lq 
WHERE p. item, =q. item, AND p. item, 


=q. item, AND 


-AND p. item,_, =q. ttem,_,AND p. item,_, <q. item,_, 


(2) 修剪 步 又 


候选 集 Ci 包括 所 有 频繁 的 上 项目 集 L,。 换 名 话说 ，C, 还 可 以 包括 不 频繁 的 项 目 集 。 因 


此 ， 有 必要 消除 〈 即 修剪 ) 所 有 不 频繁 的 项 


目 集 ， 以 便 仅 计算 L,。 为 此 ， 首 先 ， 需 要 通过 


扫描 数据 库 D 来 计算 D 中 C, 的 频率 ( 即 ， 支 持 度 计 数 )。 此 外 ， 还 需要 确认 候选 集合 所 满 


足 的 最 小 支持 度 。 


这 里 我 们 将 演示 Apriori 原理 是 如 何 来 减 小 C, 大 小 (元 素 的 数量 ) 的 。 也 就 是 说 ， 如 果 


至 少 有 一 个 (k-1) 项 目 集 作为 项 目 集 的 子 集 不 包含 在 L_, 中 ， 则 该 原理 会 确保 包括 在 C， 


中 的 该 项 目 集 是 不 频繁 的 ， 因 此 可 以 从 C, 中 将 它 删 除 。 
然后 ，Apriori 算法 的 要 点 通过 如 下 伪 代 码 示 出 。 


( 算法 ) Apriori 

1. 7 二 frequent 1 ~ itemset 
2. k2 

3. while( NOT L, =@) | 


4. C,«—Generate ~ Candidates( L,_, ,min _sup) ; 
5 for( all transaction te D) | 

6. C,<—C, part of t; 

7. for(all ce C,) | 

8 c. count<—c. count +1; 

9. } 

10. | 

11. L,—|ceC,lc. count > =min _sup} ; 


12. kk +1; 
13. } 
14. Return U ,L, ; 


(算法 ) Generate - Candidates(L,_, ,min _sup) 


1. for(all 1, eL,_,) | 
2. for(all l, eL,_,) | 


3. if((1,[1] =1,[1]) AND(1,[2] =1,[2]) AND---AND(1,[k -2] =L,[k-2]) 


AND(1,[k-1] <L,[k-1]))|{ 


c<join ( L ， l, ) ; 


Delete c; 
| else | 
Add c to C,; 
| 


O00 SY ON OP 


if( any(k — 1) —itemset as a subset of c is not frequent) | 
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12. } 

13. Return C, ; 

现在 解释 Apriori 算法 的 每 个 步 又。 此 算法 的 步骤 1 找到 频繁 的 1 项目 集 (1 - item- 
set) 。 在 步骤 3 之 后 的 循环 中 ， 步 又 4 首先 基于 L, ,生成 候选 集 C,。 此 时 ， 预 先 根据 Apriori 
原理 进行 C, 的 修剪 。 接 下 来 ， 在 步骤 5 至 步骤 10 的 所 有 事务 对 C, 的 频率 进行 计数 。 最 后 
在 步骤 11 中 ， 如 果 C, 使 用 支持 度 计数 满足 最 小 支持 度 ， 则 将 满足 最 小 支持 的 C, 添 加 到 ZL 。 

为 了 使 算法 终止 ,在 合适 的 位 置 完成 循环 。 

循环 的 终止 条 件 是 已 变 成 空 集 ， 即 不 能 再 找到 更 频繁 的 项 目 集 。 由 于 数据 库 只 有 有 限 
的 数据 量 ， 总 有 某 一 时 刻 忆 肯定 会 变 成 空 ， 所 以 算法 肯定 会 终止 。 如 果 循 环 终止 ， 则 在 步 
又 14 最 终 计算 所 有 对 应 的 LL 的 并 集 以 返回 集合 工 。 

在 生成 候选 集 C, 的 算法 (Generate - Candidates) 中 ， 在 步骤 3 中 检查 两 个 /的 连接 
e Ee a 
果 的 子 集 的 (k-1) WAR [ (k-1) -itemset] MAAEL, ,中 ， 并 且 仅 当 全 部 包含 
们 时 ， 才 可 以 基于 Apriori 原理 将 结果 添加 到 C, 中 。 

我 们 通过 事务 数据 库 的 虚拟 示例 ( 见 图 6.1) 演示 了 Apriori 算法 是 如 何 实际 工作 的 
( 见 图 6.2)。 每 个 事务 中 都 包含 酒 (准确 地 说 ， 标 识 符 ) 作为 如 图 6.1 所 示 的 集合 。 数 据 
库 的 每 次 扫描 结果 都 由 一 对 项 目 集 及 其 支持 度 计数 表示 ， 如 图 6.2 所 示 。 


图 6.1 


设 最 小 支持 度 计数 为 3( 即 ， 最 小 支持 度 =50% ) 。C, 减 去 不 频繁 项 目 集 ( 即 加 下 画 
线 的 项 目 集 ) 在 第 二 次 扫描 时 变 为 L,。 以 类 似 的 方式 通过 四 次 扫描 获得 所 有 的 频繁 项 
目 集 。 

如 图 6. 3 所 示 ， 基 于 它们 之 间 的 集合 包含 关系 ， 所 有 项 目 集 构 成 一 个 网 格 。 在 图 6.3 
中 ， 如 果 由 椭圆 节点 描绘 的 两 个 项 目 集 可 通过 边 连接 ， 则 上 面 的 项 目 集 被 下 面 的 项 目 集 包 
含 。 也 就 是 说 ， 它 们 分 别 对 应 于 子 集 (MEHE) MER ( 即 下 面 的 ) 。 简 单 起 见 ， 例 
如 ,被 简单 地 表示 为 1。 这 种 网 格 能 够 让 我 们 迅速 知道 项 目 集 是 否 频 繁 。 例如， 如 果 
| 上， AME, WEBA ER, HM 1, L, 不 是 频繁 的 。 相 反 ， 如 果 1, 
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图 6.2 执行 Apriori 算法 
L, L) 频繁 ， 则 它 的 所 有 子 集 ， 例 如 iL, L) 是 频繁 的 。 


图 6.3 项 目 集 的 网 格 


可 以 通过 用 哈 希 树 管理 频繁 项 目 集 的 候选 集 来 提高 子 集 的 这 种 检查 的 效率 ( 见 图 
6.4) 。 也 就 是 说 ， 将 项 目 集 存 储 在 哈 希 树 的 叶 节 点 中 ， 并 且 将 哈 希 表 存 储 在 非 叶 节点 中 。 
哈 希 表 的 每 个 块 (bucket) 包含 指向 子 节 点 的 指针 。 简 单 起 见 ， 将 考虑 以 下 散 列 函数 。 

© H (item) =mod (ord (item), 3) 

Ft, ord(i,) =k H mod(m,n) =m BRA n 的 余数 。 

也 就 是 说 ,根据 将 散 列 函数 应 用 于 项 目 集中 第 4 个 元 素 的 结果 ， 可 以 确定 哈 希 树 从 距 
根 的 深度 为 d 处 的 节点 到 子 节 点 的 向 下 进展 。 请 注意 ,，d 从 0 开始 。 如 果 已 经 到 达 搜 索 的 
叶 节 点 中 的 项 目 集 ， 则 将 它们 与 当前 项 目 集 进行 比较 。 如 果 它 们 彼此 匹配 ， 则 频率 按 加 计 
数 。 否 则 ,项 目 集 将 会 被 新 插入 到 叶 节 点 ,并且 其 频率 计数 被 初始 化 为 1。 因 此 ， 可 以 避 
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免 与 候选 频繁 项 目 集 的 伪 比 较 。 


第 一 项 的 哈 希 (所 深度 =0) 


图 6.4 三 个 项 目 集 的 哈 希 树 


6.5 生成 关联 规则 


一 旦 上 述 Aprior 算法 发 现 了 频繁 项 目 集 ， 则 使 用 它们 生成 关联 规则 就 是 相当 简单 的 。 
为 了 获得 强 规则 ， 仅 需要 通过 先前 定义 的 置信 公式 计算 规则 的 置信 度 。 基 于 结果 获得 关联 
规则 如 下 : 

1. 设 除 了 空 集 之 外 的 每 个 频繁 的 项 目 集 1 的 适当 子 集 为 s。; 的 数量 为 2 …。 

2. 创建 s 坟 (1-s) 并 通过 以 下 置信 和 度 公 式 计算 置信 和 度 。 


. t t(AUB 
e 四 信永 (4-0) = PCa) = por eo A 


也 就 是 说 ， 在 上 述 公 式 中 , 令 4 和 B 分 别 为 x* 和 71-s。 

如 果 support_count( 1) /support_count(s) 大 于 或 等 于 指定 的 最 小 置信 和 度 (min_conf) M 
此 规则 将 是 最 终 规则 。 

由 于 以 这 种 方式 获得 的 规则 是 从 频繁 项 目 集中 得 出 的 ， 这 意味 着 它们 满足 最 小 支持 度 
和 最 小 置信 和 度 ， 所 以 它们 是 强 关 联 规则 。 

例如 ， 从 频繁 项 目 集 | ,4,1;| 可 以 生成 以 下 6 个 规则 。 

e IUL=L(3/4=75% ) 

e J, UL =L (3/5 =60% ) 

e L ULSL(37/3=100%) 

sa [,=>1, UI,(3/6 =50% ) 

e /,=>1, UI,(3/4 =75% ) 

© /,=>1, UI,(3/5 =60% ) 

只 有 置信 度 大 于 或 等 于 最 小 置信 和 度 (BEN, 70% ) 的 规则 才 会 变 成 强 规则 。 

这 里 将 考虑 Apriori 算法 的 计算 成 本 。 令 最 长 频繁 项 目 集 的 大 小 为 MAX,， 则 发 现 所 有 
关联 规则 所 需 的 计算 复杂 度 为 0(MAX, x 1D1) , 而 这 基本 上 等 于 数据 库 扫 描 的 成 本 。 通 过 
将 该 值 除 以 阻塞 因子 (BN, 每 页 的 记录 数 )， 可 以 获得 确定 实际 处 理 时 间 的 内 存 页 面 和 次 
级 存储 器 之 间 的 IO CB, 输入 /输出 ) 成 本 。 

事实 上 ， 也 有 人 做 了 许多 改进 Apriori 算法 或 扩展 它 以 获得 更 好 性 能 的 工作 [Tan et 
al. 2006] 。 为 了 减少 数据 库 的 扫描 次 数 ， 可 以 应 用 有 效 的 计算 支持 度 计数 的 方法 [动态 项 
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目 集 计 数 (DIC) ] 或 有 效 数 据 结构 [如 动态 哈 希 和 修剪 (DHP) 以 及 垂直 格式 ] ， 或 者 使 
用 随机 采样 或 划分 使 得 数据 集 足 够 小 以 便 整 个 数据 库 可 以 存储 在 主 存储 器 中 。 而 且 ， 人 们 
还 开发 出 了 诸如 FP 生长 (FP - Growth) 算法 之 类 的 不 使 用 Aprior 算法 就 能 找到 频繁 项 目 
集 的 算法 。 此 外 ， 基 本 规则 已 经 扩展 到 数值 数据 和 系列 数据 的 规则 。 增 加 Apriori 算法 可 
扩展 性 的 方法 将 会 与 增加 其 他 数据 挖掘 技术 的 可 扩展 性 的 方法 放 在 单独 章节 中 一 起 解释 。 


[Agrawal etal. 1993] Rakesh Agrawal, Tomasz Imielinskiand Arun Swami: Mining association 
rules between sets of items in large databases. In Proc. of ACM SIGMOD Intl. Conf. on 


Management of data, pp. 207-216 (1993). 
[Tan et al. 2006] P.-N. Tan, M. Steinbach and V. Kumar: Introduction to Data Mining, Addison- 


Wesley (2005). 


7m K 类 


本 章 介 绍 了 作为 聚 类 用 于 分 组 类 似 数据 的 应 用 、 数 据 结构 和 距离 的 概念 。 然 后 ， 本 章 
还 描述 了 用 于 产生 集群 的 基本 算法 以 及 用 于 评估 结果 的 方法 。 


7.1 应 用 


首先 ， 在 解释 聚 类 本 身 之 前 应 该 先 解释 聚 类 的 应 用 [ Han et al. 2006, Tan et al. 2005]. 
聚 类 可 以 作为 构建 诸如 关联 分 析 的 假设 的 基本 技术 应 用 于 各 种 各 样 的 社交 大 数据 应 用 。 让 
我 们 考虑 ， 例 如 ， 基 于 顾客 的 购买 历史 的 相似 性 对 客户 进行 分 组 。 如 果 某 商品 经 常 由 同一 
组 中 的 顾客 购买 ， 则 该 商品 可 推荐 给 组 中 尚未 购买 该 商品 的 顾客 。 以 这 种 方式 基于 特定 相 
似 性 对 数据 进行 的 分 组 称 为 聚 类 。 在 某 种 意义 上 ， 聚 类 与 分 类 类 似 ， 都 是 对 数据 分 组 。 尽 
管 数 据 所 属 类 ( 即 类 别 ) 在 分 类 中 是 预先 知道 的 ， 但 是 在 聚 类 中 通常 没有 关于 这 样 类 的 
假设 。 因 此 ， 在 这 种 意义 上 ， 聚 类 中 的 分 组 应 该 被 称 为 分 区 而 不 是 分 类 。 在 数学 上 ， 集 合 
的 分 区 是 在 集合 中 彼此 没有 共同 元 素 的 子 集 。 因 此 ， 所 有 分 区 的 并 集 等 于 原始 集合 。 特 别 
地 ， 在 聚 类 中 创建 的 组 被 称 为 集群 。 假 设 单个 集群 的 名 称 或 特性 是 预先 未 知 的 。 

除了 诸如 上 述 的 业务 应 用 之 外 ， 还 可 以 在 各 种 应 用 中 使 用 聚 类 ， 诸 如 在 详细 分 析 之 前 
对 社交 数据 进行 分 组 ， 对 Web 搜索 结果 和 Web 访问 历史 进行 分 组 ， 发 现 具有 相似 功能 的 
基因 ， 以 及 生物 学 中 的 物种 和 医疗 中 的 患者 的 亚 分 类 。 在 聚 类 中 使 用 的 基本 数据 结构 和 算 
法 将 在 以 下 各 节 中 介绍 。 


7.2 数据 结构 


在 解释 聚 类 本 身 之 前 ， 作 为 预备 知识 我 们 来 介绍 聚 类 的 基本 数据 结构 。 这 里 需要 适合 
于 描述 聚 类 的 目标 对 象 的 数据 结构 。 为 此 可 考虑 以 下 数据 结构 。 

o 数据 矩阵 

。 相 异 矩阵 

数据 矩阵 表示 对 象 本 身 ， 而 相 异 矩阵 则 表示 对 象 之 间 的 差别 ( 即 ， 不 相似 性 ) 。 通 常 ， 可 
以 通过 某 种 方式 由 数据 矩阵 计算 相 异 度 。 因 此 ， 经 常 要 使 用 相 异 和 矩阵， 在 这 里 介绍 。 

e [di 
其 中 ，d, 表 示 两 个 物体 i 和 j 之 间 的 相 异 度 ， 或 它们 之 间 一 般 意义 上 的 距离 。 因 此 ， 相 异 
和 矩阵 也 称 为 距离 矩阵 。 如 果 两 个 对 象 不 同 ， 则 相 异 度 较 大 ， 和 否则 较 小 。 

如 果 上 距离 届满 足以 下 特性 〈 即 ,距离 的 公理 ) ， 则 距离 d 被 特别 地 称 为 距离 函数 。 

e d,20 ( 非 负 ) 

e d, =d; (对 称 ) 

。d, =0 (人 恒 等 ) 
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E 离 的 具体 方法 。 这 里 ， 有 必要 解释 相似 性 和 相 蜡 
ERZO 转换 为 相似 度 。 


e d&d, +d; (三 角 不 等 式 ) 
E 离 ) ， 同 时 ， 我 们 也 将 


换 名 话说， 一些 距离 满足 上 述 公 理 ， 而 另 一 些 则 不 满足 。 无 论 如 何 ， 大 多 数 聚 类 算法 


= 
B 


都 是 基于 距离 的 。 稍 后 我 们 将 描述 计算 
性 之 间 的 关系 。 相 异 度 可 以 通过 一 些 方法 〈 例 如 单调 递减 的 线 忆 
例如 ， 设 相似 度 为 ;,， 则 相似 度 ;, 可 以 由 相 异 度 q, 表 示 如 下 : 


在 本 书 中 ,我 们 会 在 上 述 意 义 下 来 使 用 相似 度 和 相 异 度 (或 


属性 ( 即 数字 变 


° s;=l-d 


9 解释 中 根据 本 地 内 容 来 选择 更 合适 的 一 个 。 


会 在 下 面 上 
本 节 ， 我 们 将 解释 成 为 相 蜡 性 基础 的 具体 距离 。 首 先 ， 考 虑 由 数字 
) 组 成 的 对 象 距离 。 例 如 ， 高 度 和 重量 都 是 数值 属性 。 简 单 起 见 ， 假 设 考虑 中 的 数值 


a 


7.3 距离 
性 可 以 用 线性 方法 来 测量 。 当 对 象 由 两 个 或 更 多 特征 组 成 时 ， 便 可 以 表示 为 特征 向 量 。 
出 距离 包括 欧 几 里 得 距离 〈 以 下 简称 欧 氏 距离 ) 、 曼 哈 顿 距 离 


i=) 


里 


E ZF E 


Bi MA 
和 闵可夫 斯 基 距离。 
欧 氏 距离 通过 以 下 公式 计算 : 
d = 
曼哈顿 距离 对 应 于 我 们 在 街道 网 格 中 乘 车 或 行走 时 的 通常 距离 ， 并 且 可 以 通过 以 下 


给 出 ， 假 设 p>>1， 并 且 它 是 上 述 两 个 距离 的 一 般 化 : 


式 计算 . 

e d; 一 > | xa — x 

闵可夫 斯 基 距 离 由 下 式 给 
TE EEA 
特别 地 ， 当 p 接近 无 穷 时 ， 闵 可 夫 斯 基 距 离 变 为 下 式 : 
”= 

Wo 是 向 量 。v 和 和 零 向 量 (或 向 量 的 起 点 和 终点 之 间 的 距离 ) 之 间 的 闵可夫 斯 基 距 离 
E 离 函数， 


MIKE. o | Allo 中, 是 p 范 数 的 特殊 情况 。 这些 是 


E 


BA EK p THE, FFA RAUF: 
e lvl, 


HAZ, CEA 
因为 它们 满足 距离 公理 。 
接 下 来 说 明 其 他 距离 。 
(1) 二 值 变 量 
让 我 们 考虑 每 个 对 象 由 两 个 或 更 多 二 值 变量 ( 即 其 值 为 0 或 1 的 变量 ) 表示 的 情况 。 


定义 两 个 这 样 对 象 的 距离 。 
设 两 个 对 象 是 o 和 o 。 几 定义 如 下 : 
e ni: 在 ol, 和 o, 中 都 为 1 的 对 应 变量 的 数量 
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e ny: 只 Eo 中 为 1 的 对 应 变量 的 数量 
© ng: 只 在 o, 中 为 1 的 对 应 变量 的 数量 
© no: 在 o, 和 o, 中 都 为 0 的 对 应 变量 的 数量 
那么 ， 二 值 变 量 之 间 的 距离 可 以 定义 如 下 : 


Nig + Noy 


ed,= 


Nii + Nip + Noy + Noo 
其 中 ， 如 果 变 量 的 值 为 0 意味 着 它 的 重要 性 不 如 值 为 1 的 变量 ， 则 该 距离 简化 如 下 : 


Nig 十 No 


e 二 一 一 一 
y 
nı + Nip + Noy 


这 种 情况 称 为 非 对 称 ， 而 0 和 1 是 等 效 的 情况 则 称 为 对 称 。 通 常 使 用 关于 两 个 对 象 的 
列 联 表 来 计算 二 值 变量 的 距离 ( 见 图 7.1)。 


(2) 多 值 变 量 
如 果 变 量 可 以 取 三 个 或 更 多 值 ， 则 这 样 的 变量 通常 称 为 多 值 变 量 。 设 NN 为 多 值 变 量 的 
总 数 ， 设 7 为 具有 相同 值 的 对 应 变量 的 数量 ， 则 多 值 变 量 之 间 的 距离 可 以 表示 如 下 : 
TE 
a N 
(3) 定 序 变 量 
ter ARK, FHM 为 特征 秩 的 总 数 。 如 果 顺 序 ( 即 秩 ) 对 于 多 值 变量 特别 重要 ， 则 
秩 的 值 可 由 M 归 一 化 如 下 : 
r-1 
M-1 
基于 这 样 的 归 一 化 值 ， 距 离 就 可 以 通过 引入 数值 变量 形式 的 欧 几 里 得 距离 来 计算 。 
(4) 非 线性 变量 
在 通过 某 个 函数 将 非 线 性 值 变 量 转 换 为 线性 值 之 后 ， 可 以 以 定 序 变量 相同 的 方式 处 理 
非 线 性 值 变量 。 例 如 ， 如 果 非 线性 值 变量 可 以 通过 指数 函数 近似 ， 则 可 以 通过 使 用 对 数 函 
数 将 其 转换 为 定 序 变 量 。 
当然 ， 可 用 的 转换 方法 的 类 型 还 取决 于 应 用 领域 。 根 据 数 据 或 应 用 选择 合适 的 距离 很 
要 。 
除了 以 上 介绍 过 的 距离 ， 其 他 的 将 在 需要 的 地 方 引 入 。 


7.4 BES 


本 节 将 解释 聚 类 的 定义 和 聚 类 算法 的 种 类 。 首 先 ， 将 叙述 聚 类 的 定义 。 假 设 数据 库 忆 


Iml 
pap 
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包含 PHA, RIK D 划分 为 (<n) 组 集群 c 。 创 建 的 集群 必须 满足 以 下 条 件 。 

。 集群 条 件 

1. 每 个 对 象 属于 某 个 集群 。 

2. 一 个 对 象 不 属于 两 个 或 多 个 集群 。 

3. 没有 无 对 象 的 集群 。 

应 注意 条 件 2。 其 中 一 个 对 象 正好 属于 一 个 集群 的 聚 类 称 为 硬 聚 类 、 独 占 聚 类 或 非 重 
BRK , 

nr, FP HT VA J kc FY) BRS UU BK AK RE, ABER 
类 或 重叠 聚 类 。 特 别 地 ， 如 果 一 个 对 象 属于 具有 权重 像 模糊 集 (例如 ,从 0 到 1 的 值 ) 的 
所 有 聚 类 ， 则 这 种 聚 类 被 称 为 模糊 聚 类 。 

在 硬 聚 类 中 ， 集 群 c( = 1,…,k) 变 为 D 的 分 区 。 这 种 情况 可 以 描述 如 下 : 

e D= UcUn Uc, cN Ø (i! =j) 

既然 已 经 定义 了 聚 类 ， 下 面 我 们 就 来 介绍 聚 类 算法 。 用 于 聚 类 的 算法 可 以 大 致 分 为 如 
下 两 种 类 型 : 

。 基于 分 区 的 聚 类 

。 分 层 聚 类 

下 面 将 说 明 这 两 种 类 型 的 算法 。 


7.5 基于 分 区 的 集群 


k — means 方法 (也 叫 天 均值 方法 ) 是 典型 的 基于 分 区 的 方法 之 一 ， 我 们 将 在 本 节 的 
剩余 部 分 详细 解释 它 。 

TE k-means 方法 中 ， 基 于 聚 类 中 对 象 值 的 平均 值 ( 即 平均 值 ) 或 质心 〈 即 重心 ) 来 
测量 聚 类 的 相似 度 。 执 行 聚 类 以 使 得 聚 类 内 对 象 的 相似 性 大 于 不 同 聚 类 之 间 对 象 的 相 
似 性 。 

该 算法 可 以 描述 如 下 : 

(算法 ) k- means 方法 

1. 选择 任意 大 个 对 象 ， 使 它们 成 为 下 个 聚 类 的 初始 质心 ; 

2. 重复 以 下 过 程 ， 直 到 由 对 象 重 新 排列 所 产生 聚 类 的 集合 与 先前 的 聚 类 集合 相同 | 

3. 将 每 个 对 象 分 配给 质心 最 接近 它 的 聚 类 ; 

4. 重新 计算 每 个 聚 类 的 质心 ， 以 反映 新 分 配 的 对 象 | 

这 里 让 我 们 定义 一 个 平方 误差 如 下 。 

“之 之 -mi 
其 中 ，m, 表 示 聚 类 c CEI), 

k — means 方法 创建 聚 类 以 使 该 值 (局 部 ) 最 小 。 步 又 2 的 终止 条 件 (“ 聚 类 集合 没有 
变化 ”) 可 以 用 平方 误差 值 的 减 小 量 小 于 指定 阔 值 的 条 件 来 代替 。 

我 们 将 通过 具体 示例 来 解释 左 - means 方法 是 如 何 工作 的 。 由 黑 皮 诺 葡 萄 制 成 的 红 葡 
萄 酒 看 起 来 是 明亮 的 紫色 ， 散 发 出 愉快 的 气味 ， 柔 和 的 酸味 。 这 些 和 葡萄 酒 在 世界 各 地 生 
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产 。 让 我 们 考虑 将 葡萄 酒 o， 


e o: 


这 里 ， 


BOE. Wo, Allo, NAA k( = 2) 的 初始 质心 。 图 7. 2 说 明了 -means 方法 的 聚 类 生成 过 程 。 


德国 


: WR QAE) 
: REKI (ŽE) 
: 澳大利亚 
: 加 利 福 尼 亚 州 


(i=1,…,5) 聚 类 如 下 : 


(美国 ) 


基于 每 个 区 域 的 典型 葡萄 酒 的 口味 ， 主 观 地 计算 它们 的 相互 距离 ， 尽 管 这 些 是 虚构 


of \ e 
E © / | 
e | 质 M 4 e if 
0, 页 心 
° 
数据 o 
j = 
/ ering -> | 
og s 
0 © 
CY è 
04 
@ e 


图 7.2 k-means 方法 


考虑 通过 让- means 方法 聚 类 个 数据 。 设 ， 为 重复 次 数 。 然 后 ， 总 体 上 ， 计 算 成 本 将 


是 O(nkr), TER, 
其 除 以 阻塞 因子 来 获得 。 


r 和 是 不 太 依 赖 于 的 很 小 的 数 。 数 据 库 访 问 的 170 成 本 可 以 通过 将 


k — means 方法 是 简单 和 清楚 的 ， 特 别 是 在 聚 类 中 心 对 应 于 几何 概念 〈 即 质心 ) 的 情 
况 下 。 然 而 ， 至 少 以 下 问题 仍 有 待 解决 : 

。 聚 类 结果 取决 于 聚 类 质心 的 初始 设置 。 

。 聚 类 结果 是 局 部 最 优 解 之 一 。 

。 预先 不 知道 上 的 适当 数目 。 


© 结果 对 
。 该 方法 只 能 应 月 


高 离 值 敏感 。 


日 于 数值 属性 。 


。 不 能 保证 结果 聚 类 是 平衡 的 。 
上 述 一 些 问题 已 经 提供 了 解决 方案 。 作 为 上 - means 方法 的 改进 而 开发 的 大 =- medoids 
方法 可 以 用 来 处 理 非 数值 属性 。 人 代替 上 - means 方法 中 的 质心 , k- modoids 方法 使 用 最 靠 


近 聚 类 分 配 中 质心 的 代表 公 
先 在 x - means 方法 中 提供 4 


对象， 尽管 这 两 个 算法 基本 上 彼此 相似 。 此 外 ， 用 户 不 需要 预 
Rem (ATEN xo x- means 方法 可 以 通过 重复 有- means 方法 来 创 
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建 适当 数量 的 聚 类 ， 以 便 优化 某 个 评价 指标 。 

一 旦 进行 聚 类 ， 接 下 来 要 做 的 是 代表 单个 聚 类 。 尽 管 对 于 某 些 应 用 程序 来 说 只 显示 属 
于 聚 类 的 对 象 就 足够 了 ， 但 是 通常 期 望 在 每 个 聚 类 中 聚集 对 象 ， 以 便 分 析 者 更 好 地 理解 聚 
类 。 聚 集 的 方法 如 下 : 

。 使 用 聚 类 质心 。 

© 使 用 聚 类 中 频繁 的 数据 。 

。 构建 分 类 器 〈( 人 例如， 决策 树 ) ， 它 可 以 将 聚 类 内 的 数据 与 聚 类 外 的 数据 区 分 开 并 解 
FED GE o 


7.6 分 层 聚 类 


分 层 聚 类 是 构建 树 结构 聚 类 的 方法 。 而 另 一 方面 ， 基 于 分 区 的 聚 类 方法 则 可 以 在 聚 类 
间 构 建 没 有 层次 结构 的 平面 聚 类 。 当 然 ， 由 分 层 聚 类 形成 的 聚 类 必须 满足 上 述 类 似 于 基于 
分 区 聚 类 的 聚 类 条 件 。 

此 外 ， 分 层 聚 类 方法 可 以 分 类 为 从 树叶 向 树 根 构建 树 结构 聚 类 的 方法 以 及 从 树 根 到 树叶 构 
建树 结构 聚 类 的 方法 。 可 以 说 ， 前 者 是 自 下 而 上 的 方法 ， 持 续 合 并 类 似 的 聚 类 ， 从 一 个 状态 开 
台 ， 其 中 每 个 聚 类 只 包含 一 个 对 象 ， 直 到 聚 类 总 数 达 到 所 需 的 数量 。 因 此 ， 聚 类 的 数量 逐渐 减 
少 。 这 种 方法 称 为 分 层 聚 合 聚 类 (Hierarchical Agglomerative Clustering, HAC) 。 

另 一 方面 ， 后 者 是 自 上 而 下 的 方法 ， 其 从 只 有 一 个 聚 类 包含 所 有 数据 的 状态 开始 重复 
聚 类 的 分 割 ， 直 到 总 数 达 到 期 望 数 目 。 因 此 ， 总 数 逐 渐 增 加 。 这 种 方法 称 为 分 层 分 割 聚 类 
( Hierarchical Divisive Clustering, HDC) 。 

这 两 个 聚 类 的 生长 过 程 具 有 完全 相反 的 方向 。 这 两 种 方法 将 在 下 面 解释 。 


(1) HAC 
HAC 具有 以 下 算法 。 设 为 对 象 总 数 , k (<n) 为 所 需 的 聚 类 数 。 
(算法 ) HAC 


1. 使 集合 C 中 的 每 个 聚 类 包含 一 个 对 象 ; /* 此 时 | Cl = =n; 

2. 重复 以 下 过 程 ， 直 到 1CI = =k} 

3. 从 C 中 选 出 两 个 最 相似 的 聚 类 c 和 co ， 并 从 C 中 删除 它们 ; 7 * 相似 度 测量 将 在 后 
面 描述 ; 

4. 创建 由 c, Ue, 组 成 的 新 聚 类 ce，( 即 ， 将 c, File, IPB, 中 ) ， 并 将 其 添加 到 C1} 

作为 HAC 的 结果 所 构建 的 树 结构 称 为 树 形 图 。 如 果 聚 类 沿 着 水 平 轴 分 布 而 相似 性 
(或 距离 ) 沿 着 垂直 轴 分 布 ， 则 从 具有 最 大 相似 性 的 两 个 聚 类 开始 合并 聚 类 。 换 句 话说 ， 
聚 类 越 晚 合并 ， 它 们 越 不 相似 。 图 7. 3 显示 了 一 个 树 形 图 的 示例 。 

在 上 述 算法 中 ,终止 条 件 (1 Cl = =k) 可 以 改 为 以 下 条 件 : 

© 只 有 一 个 聚 类 (ICI = =1) 的 条 件 。 

存储 所 有 中 间 聚 类 和 相似 性 。 然 后 ， 在 当前 最 大 相似 性 小 于 给 定 阔 值 之 前 ， 将 一 组 聚 
类 确定 为 最 终结 

接 下 来 将 描述 聚 类 的 相似 性 。 因 此 ， 将 考虑 关于 两 个 聚 类 相似 性 (或 相 异 性 ) 的 度 
量 。 如 果 聚 类 相似 ， 则 相似 度 较 大 或 相 异 度 较 小 。 这 里 我 们 将 关注 相 异 的 程度 。 
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HDC 


HAC 


O; O> Os O4 0; 


图 7.3 分 层 聚 类 及 其 树 形 图 


设 三 个 聚 类 c  、c 和 ,中 所 包含 对 象 的 数量 分 别 为 m 、 玫 和 mu。 此 外 ， 设 两 个 对 象 上 和 pm 之 
间 的 相 异 性 为 a (p, ，p,)。 聚 类 c 和 c, 之 间 的 相 异 性 可 以 使 用 以 下 标准 中 的 任 一 个 来 度量 : 
e 最 小 相 异 性 : min | d(p, PP) | 


。 最 大 相 异 性 . max | d(p, ,P2) | 


。 平 均 相 异 性 : 一 E dom) 


最 小 相 异 性 也 称 为 单 链 接 (Single Link，SLINK)， 它 等 效 于 两 个 聚 类 之 间 的 最 短 距 
离 ， 即 最 近 相 邻 对 象 之 间 的 距离 ， 其 中 每 个 最 近 相 邻 对 象 分 别 来 自 不 同 的 聚 类 。 使 用 最 小 
相 异 性 的 聚 类 倾向 于 连接 一 系列 中 间 聚 类 。 因 此 ， 难 以 将 真正 不 同 的 聚 类 彼此 分 离 。 这 种 
性 质 称 为 链 效应 。 在 这 种 情况 下 ， 位 于 中 间 的 聚 类 被 称 为 噪声 点 。 然 而 ， 使 用 最 小 相 异 性 
的 聚 类 对 于 存在 偏离 值 的 情况 是 鲁 棱 的 。 聚 类 之 间 最 小 相 异 性 的 概念 如 图 7. 4a 所 示 。 

最 大 相 异 性 也 称 为 完全 链接 (Complete Link，CLINK) ， 它 等 效 于 两 个 聚 类 之 间 的 最 长 
距离 ， 即 最 远 相 邻 对 象 之 间 的 距离 。 尽 管 存在 异常 值 时 使 用 最 大 相 异 性 的 聚 类 不 如 使 用 最 
小 相 异 性 的 聚 类 和 鲁 棒 ， 但 是 这 样 做 容易 使 聚 类 结果 更 加 紧凑 。 聚 类 之 间 最 大 相 异 性 的 概念 
如 图 7.4b 所 示 。 

平均 相 异 性 也 称 为 平均 链接 或 非 加 权 配 对 算术 平均 法 (Unweighted Pair Group Method 
With Arithmetic Mean，UPGMA)。 总 之 ,使 用 平均 相 异 性 的 聚 类 具有 上 述 两 种 聚 类 方法 折 
中 的 特征 。 因 此 ， 基 于 平均 的 聚 类 对 于 噪声 点 和 异常 值 是 相当 中 性 的 。 SRR aD 
性 的 概念 如 图 7. 4c 所 示 。 


S 
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除了 上 述 三 种 方法 之 外 ， 通 
常 还 会 使 用 基于 两 个 聚 类 的 质心 ° 
之 间 的 距离 ( 欧 几 里 得 距离 ) 作 ° 
为 相 异 性 度量 的 Ward 方法 ( 沃 
德 法 ) 如 下 : è 


“Im, -m,l° a) SLINK 


c 的 质心 。 e< 一 
这 里 有 必要 解释 一 下 链 效 

应 ,因为 它 并 非 一 无 是 处 。 例 e 

如 ， 如 果 将 像 日 本 群岛 这 样 相 当 b) CLINK 

狭长 的 岛屿 被 合并 到 一 个 聚 类 ， 

则 链 效 应 将 比 创建 紧凑 和 紧密 的 

聚 类 更 合适 。 换 名 话说， 选择 哪 

种 类 型 的 相 异 性 取决 于 你 想 要 得 

到 什么 类 型 的 聚 类 。 


(2) Lance 和 Williams 系数 c) UPGMA 
Lance 和 Williams 已 经 证 明 ， 图 7.4 相 异 性 


使 用 原始 聚 类 (c,, 6c,, ¢) 之 
间 的 差异 ， 新 合并 的 聚 类 c，( =c, Uc,) 和 其 他 聚 类 (c, c) 之 间 的 差异 可 以 通过 下 面 
的 公式 来 统一 计算 。 这 确保 了 可 以 在 常量 时 间 内 执行 相 异 性 计算 。 

e d(c,Uc,,c,) =a,d(c,,c,;) +a,d(c,,c,) + bd(c,,c,) +eld(e,,c,) -d(c,,¢,) | 

上 式 中 的 四 个 系数 a, a, b 和 < 应 根据 使 用 的 相 异 性 种 类 来 确定 ， 如 图 7.5 所 示 。 


mni Mi 
71 十 72 十 7 nytt, 1 十 772 十 7 


图 7.5 Lance FU Williams 系数 
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(3) HDC 

HDC 是 通过 以 下 算法 实现 的 。 设 期 望 的 聚 类 数量 为 大 (<n). 

(算法 ) HDC 

1 从 一 个 聚 类 中 包含 所 有 对 象 的 聚 类 集 C 开始 /* 此 时 1C1 = = 1; 

2. 当 给 定 条 件 (通常 1 C1 <k) 为 真 时 ， 重 复 以 下 过 程 | 

3. 从 C 中 选择 一 个 聚 类 ec， 并 从 C 中 删除 它 ; 

4. 根据 特定 原则 (例如 ， 在 最 相似 对 象 之 间 的 距离 被 最 大 化 的 地 方 划分 ) 将 C 划分 
为 7 个 分 区 (通常 , 1=2); 

5. 设 这 样 的 聚 类 是 聚 类 c (G = 1，…, 1) 并 将 它们 添加 到 C} 

用 于 两 个 分 区 的 HDC 的 概念 如 图 7.6 所 示 。 


图 7.6 HDC 


7.7 聚 类 结果 的 评价 


在 执行 聚 类 之 后 ， 需 要 评价 结果 。 然 而 ， 正 如 我 们 已 经 描述 的 那样 ， 作 为 聚 类 的 结果 
应 当 返 回 什 么 并 没有 一 个 正确 的 答案 。 因 此 ， 基 本 上 很 难 评价 所 得 到 的 聚 类 质量 。 尽 管 如 
此 ， 将 引入 一 些 评价 措施 。 

(1) 由 分 析 师 评价 

用 户 (特别 是 分 析 人 员 ) 评价 聚 类 结果 ， 并 通过 检查 打分 。 由 于 人 的 评价 往往 容易 
带 有 主观 性 ， 因 此 有 时 需要 采纳 和 平衡 两 个 或 更 多 用 户 的 评价 。 
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(2) Wi 
尽管 通常 不 可 能 ， 但 是 如 果 有 时 每 个 数据 应 属 的 类 别 ( 即 类 ) 是 预先 知道 的 话 ， 则 
每 个 类 另 


别 分 别 对 应 于 单独 的 聚 类 。 也 就 是 说 ， 如 果 存 在 天 个 类 别 ， 则 可 以 假设 聚 类 的 
结果 是 大 个 聚 类 。 在 这 样 的 前 提 下 ， Wi (entropy) 可 以 用 作 评估 量 庆 。 
FRED IRITZI PIRATE : 
® entropy(D,) =- È plone) 
其 中 ， p.( C,) 表 示 数据 比率 ; CLEARED PTA BARI A, HES RRA AIT AUF : 


® entroPY oaa (D) = > P emropy(D,) 

(3) 纯度 

纯度 (purity) Æ- RH ER te PEAS EEE, SF RSD, 19 SUE EA F 
公式 计算 : 

® purity(D;) =max(p;(C;)) 

Wb, FES FESS AY AH EATS T : 

t 万 

® purity „aa (D) = 2, ppurity(D;) 

(4) 内 部 测量 

虽然 诸如 烂 和 纯度 的 量度 也 使 用 外 部 数据 ， 但 另 一 种 量度 仅 使 用 给 定数 据 。 聚 类 的 内 
聚 度 可 以 使 用 前 面 已 经 提 到 的 平方 误差 来 度量 。 此 外 ， 可 以 使 用 两 个 聚 类 的 质心 之 间 的 距 
离 来 度量 两 个 聚 类 之 间 的 分 离 程度 。 


[Han et al. 2006] J. Han and M. Kamber: Data Mining: Concepts and ‘Techniques, Second. 
Edition, Morgan Kaufmann (2006). 

[Tan et al. 2005] P.-N. Tan, M. Steinbach and V. Kumar: Introduction to Data Mining, Addison- 
Wesley (2005). 


第 8 至 分 类 


首先 ， 在 分 类 中 ， 根 据 事先 已 知 的 数据 的 类 或 类 别 ， 来 学 习 分 类 器 以 及 用 于 向 数据 正 
确 地 分 配 适 当 类 的 机 制 〈 例 如 ， 分 类 规则 ) 。 其 次 ， 如 果 给 出 了 新 的 数据 ， 则 使 用 学 习 的 
分 类 器 对 它们 进行 分 类 。 本 草 还 将 描述 这 种 分 类 器 的 构造 方法 。 


8.1 动机 


当 有 客户 申请 信用 卡 时 ， 是 否 向 客户 发 放 信 用 卡 是 信用 卡 公司 的 重要 问题 。 这 个 业务 
称 为 信用 业务 。 通 过 了 解 过 去 与 客户 相关 的 数据 ， 信 用 卡 公 司 已 经 学 习 了 关于 是 否 向 新 客 
户 发 行 卡 的 决定 的 规则 ， 换 名 话说 ， 这 样 的 客户 应 该 满足 哪些 条 件 。 为 了 利用 过 去 的 数据 
样本 来 学 习 决 策 规 则 ， 以 确定 关于 新 数据 的 “是 ”或 “和 否 ”或 者 为 新 数据 分 配 适 当 的 类 ， 
这 一 过 程 是 分 类 [Mitchell 1997, Witten et al. 1999, Han et al. 2001, Hand et al. 2001] 。 特 
别 地 ， 此 时 用 于 做 出 决定 的 规则 被 称 为 分 类 规则 。 换 句 话 说， 分 类 的 先决 条 件 是 数据 应 当 
属于 的 类 (或 类 别 ) 是 预先 已 知 的 。 如 已 经 描述 的 ， 根据 相 似 度 将 数据 分 割 成 组 的 聚 类 
任务 明显 不 同 于 分 类 任务 ， 因 为 组 的 特性 和 名 称 在 之 前 的 任务 中 可 能 是 预先 未 知 的 。 

寺 别 地 ， 确 定 的 结果 是 连续 数值 而 不 是 离散 值 ( 即 类 ) 的 分 类 被 称 为 预测 或 回归 。 
我 们 将 在 单独 的 章节 中 描述 介绍 预测 。 


8.2 分 类 任务 


本 节 介 绍 分 类 的 步骤 以 及 分 类 的 基本 概念 。 分 类 包括 两 个 步骤 学 习 步 骤 和 分 类 步 又 
(狭义 上 )。 让 我 们 考虑 一 个 由 一 组 元 组 组 成 的 数据 库 。 更 一 般 地 ,假设 每 个 元 组 由 多 个 
属性 描述 。 在 学 习 步 又 中 ， 通 过 使 用 样本 数据 ( 即 元 组 来 学 习 分 类 右 。 一 般 来 说 ， 要 发 
现 的 知识 或 者 要 通过 数据 挖掘 学 习 的 模式 或 关系 称 为 模型 。 除 了 分 类 器 之 外 ， 模 型 还 包括 
关联 规则 ( 即 ， 频 繁 模式 ) 和 聚 类 结果 。 在 分 类 步 又 中 ， 通 过 使 用 学 习 到 的 模型 来 分 类 
新 出 现 的 数据 。 下 面 将 详细 说 明 这 两 个 步 又 。 

(1) 学 习 步 又 

学 习 或 构造 作为 模型 的 分 类 器 ， 以 便 描 述 其 类 已 确定 的 数据 。 数 据 库 中 每 个 元 组 都 有 
一 个 类 属性 〈 目 标 属 性 ) ， 并 存储 类 名 作为 其 值 。 具 有 某 个 类 作为 其 类 属性 值 的 元 组 被 解 
释 为 属于 该 类 。 该 模型 通过 分 析 一 组 元 组 来 构造 。 在 这 个 意义 上 ， 用 于 构建 模型 的 一 组 样 
本 数据 被 称 为 训练 集 

每 个 样本 都 会 预先 给 出 各 自 的 类 名 。 因 此 ， 事 先 提 供 的 分 类 称 为 监督 学 习 。 男 一 方 
面 ， 聚 类 称 为 无 监督 学 习 ， 因 为 数据 类 别 预先 并 不 知道 。 这 样 学 习 的 模型 由 决策 树 、 规 则 
或 公式 表示 。 


o 
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(2) 分 类 步 又 
通过 使 用 由 学 习 获 得 的 模型 ( 即 ， 分 类 器 ) 来 分 类 新 数据 。 现 在 让 我 们 定义 模型 的 
准确 性 。 为 了 确定 模型 的 准确 性 ， 要 使 用 被 称 为 测试 集 的 数据 集 ， 它 由 附带 正确 类 名 称 的 
样本 组 成 。 模 型 的 准确 性 是 正确 预测 数 与 使 用 测试 集 的 模型 预测 总 数 的 比率 。 测 试 集 通常 
不 同 于 训练 集 。 如 果 模 型 具有 可 以 接受 的 精度 ， 则 该 模型 可 用 于 对 新 数据 进行 的 分 类 。 注 
意 ， 如 果 仅 基于 训练 集 评估 准确 度 来 选择 模型 ， 则 该 模型 倾向 于 过 拟 合 。 这 种 评价 被 称 为 
乐观 评价 。 

预测 离散 类 型 的 类 属性 值 ， 其 中 区 别 值 ( 即 类 标签 ) 的 数量 相对 较 小 ， 被 称 为 分 类 ， 
而 预测 连续 类 型 的 类 属性 值 则 被 称 为 回归 。 分 类 的 应 用 范围 从 定位 结构 化 数据 ( 例如 ， 直 
接 营 销 和 信用 业务 ) 到 定位 相对 而 言 非 结构 化 数据 (例如 ， 社 交 数 据 和 Web 文档 的 分 


类 )。 
8.3 决策 树 归 纳 


决策 树 通常 用 作 分 类 器 。 决 策 树 是 像 流程 图 一 样 的 树 结构 。 决 策 树 的 非 叶 节 点 表示 
性 的 条 件 测试 ， 并 且 到 子 节点 的 每 个 分 支 表示 测试 的 相应 结果 ， 而 叶 节 点 则 表示 确定 
的 类 。 

现在 让 我 们 通过 使 用 决策 树 来 考虑 未 知 样本 的 分 类 。 从 根 节点 到 叶 节 点 的 路 径 对 应 于 
确定 类 的 过 程 ， 并 且 在 该 路 径 末 端的 叶 节 点 用 于 保存 当时 确定 的 类 。 可 以 直接 将 决策 树 转 
换 为 分 类 规则 。 总 而 言 之 ， 沿 着 由 逻辑 与 (AND) 连接 的 所 有 测试 路 径 和 由 路 径 末 端 叶 节 
点 所 表示 的 类 分 别 对 应 于 分 类 规则 的 前 提 条 件 和 结论 。 

。 决策 树 的 归纳 算法 

下 面 将 描述 决策 树 的 归纳 算法 。 它 是 一 种 称 为 Quinlan 的 ID3 的 基本 算法 [ Mitchell 
1997, Han et al. 2001 ] 。 该 算法 假定 类 别 属 性 是 离散 类 型 。 因 此 ， 如 果 将 该 算法 应 用 于 数 
字 属 性 ， 则 必须 像 在 关联 规则 中 那样 离散 属性 值 。 

(算法 ) 决策 树 归 纳 

输入 : 训练 集 和 属性 列表 

输出 : 决策 树 

1. 为 训练 集中 的 样本 创建 单个 节点 N; 

2. 如 果 所 有 样本 属于 同一 类 ， 则 让 节点 N 是 叶 节 点 ， 用 类 名 标记 叶 节 点 并 终止 ; 

3. 如 果 属 性 列表 为 空 ， 则 让 节点 N 为 叶 节 点 ， 用 默认 类 或 最 常见 的 类 标记 叶 节点 并 
终止 ; 

4. 通过 使 用 那些 可 以 将 样本 划分 到 类 的 最 佳 特定 度量 (例如 ,信息 增益 ) 来 选择 测 
试 属 性 ; 
. 使 用 所 选择 的 测试 属性 标记 节点 N; 

. 对 测试 属性 的 每 个 值 c, 执 行 以 下 过 程 | 

. 从 节点 V 创建 分 支 (测试 属性 = a); 

. 设 *, 是 满足 分 支 条 件 的 样本 集 的 子 集 ; 

. 如果 *; 为 空 ， 则 将 分 支 附加 到 标记 有 默认 类 或 最 常见 类 的 叶 节 点 ; 


al 
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10. AM, Ss Al | 属性 列表 减 测试 属性 | 分 别 是 新 训练 集 和 新 属性 列表 ， 递 归 地 应 
用 该 算法 ， 并 附加 到 作为 递归 应 用 结果 所 返回 的 决策 树 分 支 ;| 。 


8.4 测量 属性 选择 


这 里 我 们 将 描述 用 于 决策 树 归 纳 算 法 中 选择 适当 属性 时 所 使 用 的 度量 。 经 常 使 用 的 措 
施 之 一 是 称 为 信息 增益 或 炉 减 少 的 措施 。 选 择 最 大 化 度量 值 的 属性 作为 测试 属性 。 

假设 样本 S 由 s 个 样本 片段 组 成 ,并 旦 假 定 每 个 样本 又 由 7 个 属性 组 成 。 假 设 样本 的 
类 属性 具有 表示 类 C，(i = 1，2，…，m) 的 任何 类 标签 。 假定 C, 包 含 如 下 的 s, 片 段 : 

e S=UC,, s=|S], s=1 C1 (i=1, 2, =, m) 

样本 属于 C, 的 概率 表示 如 下 : 

® p,=s,/s 

期 望 炉 由 以 下 等 式 表 示 : 


e 1(sS 5 S) = 一 之 p; log, P; 

男 一 方面 ,假设 属性 4 具有 区 别 值 a，(j = 1, 2, =, v), WS HEME : 

e S=US, (j=1, 2, =, v) 

Hh, SEWERA =a hS 的 子 集 。$, 是 $ 中 属于 类 C, 的 样本 。 如 果 选 择 4 作为 测 
试 属性 ， 则 每 个 子 集 是 来 自 于 4 WOT SC. 

基于 属性 4 SUP HITT EU T : 


[È S, 
e E(A) = by [> "5845085 


j=l 


其 中 ， 每 个 子 集 S RRRA F : 


© 1(Sy,Sy, Sy) = 一 > ps log, Py 

RE, p =s,/15, |， 表 示 S 的 样本 中 属于 C 的 样本 的 概率 。 

言 息 增益 可 以 通过 使 用 上 述 公 式 定义 如 下 : 

® Gain(A) =1(s,,s,,…,s,) —E(A) 
BEM — Th, POO Ae HE 4 的 值 而 变 小 。 

针对 每 个 属性 计算 信息 增益 ， 然 后 选择 具有 最 大 值 的 属性 作为 5 的 测试 属性 。 也 就 是 
说 ， 创 建新 节点 并 用 测试 属性 标记 ， 然 后 创建 分 支 以 便 对 应 于 具有 相同 属性 值 的 样本 。 

例如 ， 让 我 们 考虑 如 图 8.1 所 示 的 训练 集 。 令 Fils, 分 别 为 买 酒 (Purchase Wine) 这 
一 决策 中 的 决策 “yes” 和 “no”， 甚 彤 计算 如 下 : 


9 9 5 5 
e = = 
1(s,,s,) 149814 1408 14 0. 940 


接 下 来 ， 让 我 们 考虑 “travel” 属 性 的 划分 。 “travel = like” WRITE F : 


e J(s,s) = Clog, £ log, £ =0. 811 


“travel = dislike” HIRAI F : 
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图 8.1 训练 集 


3 3 3 3 
e (S555) = 一 6 leg 一 6 kG = 1.00 


FAG, “travel” J PEM Oradea RIE ; 
® E(travel) = -Ë Kesusu) -ÉN sns) =0. 892 


最 后 ， 这 种 情况 下 的 信息 增益 计算 如 下 : 

® Gain( travel) =I(s,,s,) —E(travel) =0. 048 

针对 除 “travel” 属 性 之 外 的 其 他 属性 所 计算 的 信息 增益 如 下 所 示 : 

® Gain( age) =0. 246 

® Gain(income) =0. 029 

e Gain(sex) =0.151 

通过 比较 为 每 个 属性 所 计算 的 信息 增益 值 ， 选 择 具有 最 大 值 的 “age” 属 性 作为 测试 
属性 。 对 每 个 子 树 重复 进行 相同 的 处 理 。 图 8. 2 展示 了 IDS 算法 基于 信 息 增益 人 度量 学 习 的 
决策 树 。 
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dislike like 


8.5 创建 分 类 规则 


一 旦 引入 决策 树 ， 就 可 以 通过 使 用 决策 树 直 接 创建 分 类 规则 。 让 我 们 考虑 从 根 导 向 叶 
节点 的 一 条 路 径 。 然 后 ， 与 非 叶 节点 对 应 的 < 属性 ， 属 性 值 > 构成 一 个 简单 条 件 。 沿 着 整 
个 路 径 通过 逻辑 与 (AND) 连接 的 简单 条 件 是 规则 的 条 件 部 分 。 另 一 方面 ， 叶 节点 是 规则 
的 结论 部 分 。 例 如， 使 用 现在 导出 的 决策 树 ， 将 制定 以 下 规则 : 

IF Age < 30 AND Sex = female THEN Purchase wine = Yes 

IF 31 < = Age < = 39 THEN Purchase wine = Yes 


8.6 扩展 基本 算法 


对 于 基本 的 ID3 算法 ， 人 们 也 考虑 过 一 些 扩展 ， 如 C4.5 [ Mitchell 1997, Han et al. 
2001 ]。 尽 管 我 们 省 略 了 关于 它 的 详细 说 明 ， 但 是 这 样 的 扩展 应 包括 以 下 方面 : 

。 扩展 连续 值 的 预测 ， 例 如 回归 树 

。 使 用 替代 措施 来 进行 属性 的 选择 (如 GINI 和 AIC) ， 而 不 是 再 次 使 用 信息 增益 

© 补 全 缺失 值 

然而 ， 对 于 基本 或 扩展 算法 仍然 存在 需要 解决 的 其 他 问题 。 其 中 之 一 是 可 扩展 性 。 可 
扩展 性 问题 将 在 单独 的 章节 中 描述 为 分 类 和 其 他 数据 挖掘 任 务 。 


8.7 模型 精度 


本 节 将 描述 模型 的 精度 。 如 果 训 练 集 用 于 决策 树 的 生成 和 精度 测量 ， 则 估计 可 能 是 乐 
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观 的 ， 从 而 会 导致 使 用 决策 树 的 错误 结论 。 基 于 取样 解决 该 问题 的 方法 [Kohavi 1995, 
Han et al. 2001] 已 经 有 人 提出 ， 如 下 所 示 。 

。 保持 法 

首先 ， 在 保持 法 中 ， 将 样本 数据 随机 地 分 为 训练 集 和 测试 集 。 这 两 个 数据 集 的 大 小 比 
通常 为 2:1。 然 后 ， 通 过 使 用 训练 集 生成 分 类 器 ， 通 过 单独 使 用 测试 集 来 计算 精度 。 

这 种 方法 是 悲观 的 ， 因 为 它 只 使 用 一 部 分 数据 来 评估 准确 性 。 由 于 随机 采样 被 重复 
“保持 ” 正 次 ， 然 后 测量 每 个 回合 的 精度 并 平均 所 有 值 ， 因 此 ， 该 方法 中 会 存在 变化 。 
© 次 折 中 交叉 验证 
L 首先 ， 此 方法 将 样本 数据 分 割 成 大 致 相同 大 小 的 个 非 重 姜 子 集 ， 即 | 5,} (i=1， 
= k)o 
2. EFR, WEHA FREER k KIZA VARAM, 
3. | 令 数 据 子 集 5, 和 其 他 子 集 5，(j 寺 i 分 别 是 测试 集 和 训练 集 } 。 
通过 将 次 正确 答案 的 总 和 除 以 回答 总 数 来 确定 最 终 准 确 度 。 在 该 方法 中 存在 称 为 分 
层 交 叉 验 证 的 变化 ， 它 使 得 每 个 子 集 的 类 分 布 与 原始 数据 的 类 分 布 基本 相同 。 


2a 


8.8 提高 精度 


在 本 节 中 ,将 解释 分 类 带 精 度 的 提高 。 通 常 ， 存 在 一 般 方法 ,例如 Boosting 方法 
[ Breiman 1996, Witten et al. 1999] 和 Bagging 方法 [Freund 1996, Witten et al. 1999], 。 这 
些 方法 的 共同 之 处 可 以 表示 如 下 : 

1. 创建 一 个 了 分 类 顺序 列 C,; 

2. 通过 使 用 C, 构 造 最 终 的 分 类 器 C” 。 

这 里 将 简要 描述 Bagging 方法 ， 以 解释 上 述 想法 。 

e Bagging (bootstrap aggregation) © 

在 学 习 时 ， 依 次 创建 7 个 单独 的 分 类 器 。 在 分 类 器 所 创建 的 每 次 迭代 (第 ;次 迭代 ) 
中 ， 通 过 从 样本 S( |S] =s) 采 样 来 创建 样本 $,， 然 后 基于 $, 创 建 分 类 器 C,。 实 际 上 ， 每 个 
样本 都 是 通过 删除 和 替换 训练 数据 来 完成 的 。 

在 新 数据 的 分 类 中 ， 最 终 分 类 器 C 会 取 各 个 分 类 器 C, 的 分 类 结果 的 多 数 投票 ， 并 以 该 
结果 作为 C 的 最 终结 果 。 在 数值 属性 的 情况 下 ， 应 使 用 平均 值 而 不 是 大 多 数 投票 。 


8.9 ”其 他 模型 


除了 上 面 已 经 描述 的 决策 树 模 型 之 外 ， 还 存在 各 种 分 类 方法 。 其 中 一 些 将 在 下 面 f 


HH 
A 


或 


© Bagging 是 引导 聚合 的 缩写 ， 这 种 方法 的 思想 跟 现代 的 投票 制度 如 出 一 红 ， 一 个 人 再 精明 ， 他 的 判断 力 
也 是 有 限 的， 但 是 如 果 能 把 一 群 人 集中 在 一 起 投票 ， 那 么 因为 一 个 人 所 犯错 误 的 概率 就 会 被 抵消 ， 而 最 
后 所 得 出 结论 的 正确 性 也 会 明显 优 于 一 个 人 做 出 的 决策 。 一 一 译 者 注 
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。 k-NN (k WER) 

k -NN [Mitchell 1997, Hand et al. 2001] 将 天 个 最 近邻 的 分 类 结果 的 多 数 投票 给 未 知 
数据 ， 并 将 结果 作为 未 知 数据 的 最 终 分 类 结果 。 如 果 数 据 由 n 维 向 量 表示 ， 则 -NN 通常 
使 用 nn 维 空间 中 的 欧 几 里 得 距离 ， 以 便 测 量 数据 与 最 近邻 之 一 之 间 的 相似 度 。 
k-NN 直到 它 需 要 分 类 的 未 知 数据 没有 类 标签 时 ， 才 会 开始 学 习 。 在 这 个 意义 上 ， 
k -NN 有 时 被 称 为 懒惰 学 习 者 。 因 此 ， 在 实际 分 类 时 ,hk - NN 首次 进行 类 确定 所 需 的 计 
算 。 与 其 他 称 为 急切 学 习 的 分 类 器 (例如 ,决策 树 ) 相 比 ， 通常 -NN 在 分 类 步骤 中 需 
要 更 高 的 成 本 ,尽管 -NN 在 学 习 步 又 中 不 需要 成 本 。 

这 里 让 我 们 考虑 这 个 方法 的 复杂 性 。 假 设 需要 p 时 间 来 计算 查询 和 一 块 数据 之 间 的 距 
离 ， 一 般 来 说 它 需 要 0(np)。 因 此 ,为 了 有 效 地 选择 样本 ， 需 要 索引 。Yu 和 其 他 人 [Yu 
et al. 2001] 的 一 项 工作 可 以 定位 为 在 这 个 方向 的 研究 。 我 们 将 在 Web 挖掘 的 章节 中 再 次 
涉及 下-NN。 

© 朴素 贝 叶 斯 

有 一 种 基于 概率 理论 被 称 为 朴素 贝 叶 斯 的 分 类 方法 [ Langley et al. 1992, Mitchell 
1997, Han et al. 2001 ] 。 在 观察 事件 之 后 假设 五 所 保持 的 概率 P(XIH) 被 称 为 后 验 概率 。 
男 一 方面 ，P() 被 称 为 先 验 概率 。 例 如 ， 由 nn 个 属性 组 成 的 样本 钱 属 于 类 C, 的 概率 表示 
H P(C |X) o 假设 类 的 总 数 等 于 m， 分 类 问题 可 以 按 如 下 改写 。 

1. 找到 最 大 化 P(C,IX) (i=1,2,…,m) 的 C,。 

根据 贝 叶 斯 定理 ， 上 述 概 率 可 以 按 如 下 改写 。 

P(C,IX) =P(XIC,)P(C,)/P(X) 

由 于 P(X) 对 于 所 有 类 是 恒定 的 ， 因此， 只 需 最 大 化 P(XI1C;)P(C;) 便 可 以 最 大 化 该 
表达 式 。 这 里 ,估计 P(C) =s,/s。 设 s 和 s, 分 别 是 样本 总 数 和 由 C, 包 括 的 样本 数量 。 假 设 
属性 的 值 彼此 独立 〈 朴 素 贝 叶 斯 假设 ) ， 则 P(X1C,) 可 以 按 如 下 方式 进行 变换 : 

P(XIC) = T]PG,|¢) 

Bhs, 是 由 C 所 包含 的 样本 的 数目 ， 其 中 4 =x, XIR HEA 的 值 为 x 的 概率 等 于 
P(x, |C) =5,/s,0 这里， 假设 P(x |C ) 将 遵循 连续 值 的 高 斯 分 布 。 

例如 ， 让 我 们 考虑 一 个 年 龄 <30 岁 、 收 入 低 、 不 喜欢 旅行 的 人 是 否 会 买 葡 萄 洒 。 相 
关 概 率 计 算 如 下 。 

P( Purchase wine = Yes) =9/14 

P( Purchase wine = No) =5/14 

P( Age <301 Purchase wine = Yes) =2/9 

P( Age <301 Purchase wine = No) =3/5 


U 


P( Travel = dislike | Purchase wine = Yes) =3/9 
P( Travel = dislike | Purchase wine = No) =3/5 
通过 使 用 这 些 值 来 计算 要 最 大 化 的 概率 ， 并 且 进 行 如 下 比较 : 
P( Yes) P( <301Yes)P(LowlYes)P(MalelYes)P(dislikelYes) =0. 0053 
P(No)P( <301No) P( Low! No) P( Male! No) P( dislike| No) =0. 0206 


ye 
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因此 ， 在 朴素 贝 叶 斯 方法 中 ， 对 于 该 示例 ， 将 “No” 分 配给 “Purchase Wine” (类 属 


性 ) 。 


如 上 所 述 ， 通 过 假设 属性 之 间 的 独立 性 ， 可 以 减少 朴素 贝 叶 斯 方法 的 计算 复杂 度 。 但 


也 有 一 些 方法 会 考虑 依赖 性 【Mitchell 1997, Han et al. 2001], 
e 支持 向 量 机 (Support Vector Machine, SVM) 


n> 


第 一 个 SVM [Burges 1998] 将 训练 集 分 成 反例 和 正 例 。 然 后 ， 由 SVM 来 确定 正 例 和 


反例 数据 之 间 的 超 平面 ， 目 标 是 最 大 化 超 平 面 与 正 例 和 反例 之 间 的 间隔 〈 支 持 向 量 之 间 的 
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距离 对 应 于 每 种 情况 下 边缘 之 间 的 距离 )。 我 们 将 在 Web 挖掘 章节 中 更 详细 地 描述 SVM。 
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上 一 章 中 描述 的 分 类 通常 从 给 定 变 量 确定 离散 类 别 。 而 在 本 童 中 ， 作 为 类 似 于 分 类 的 
任务 ， 我 们 将 解释 如 何 基于 其 他 变量 来 对 连续 变量 进行 预测 。 在 预测 中 ， 前 者 和 后 者 分 别 
称 为 自 变量 和 因 变 量 。 由 于 技术 上 将 因 变 量 作为 自 变量 的 函数 来 预测 ， 因 此 我 们 将 概述 作 
为 基本 方法 的 回归 和 作为 高 级 方法 的 多 变量 分 析 。 基 于 这 些 技术 的 模型 构建 是 必 不 可 少 
的 ， 只 有 这 样 才 能 在 建立 大 数据 应 用 系统 的 概念 层 上 创建 和 确认 具体 的 定量 假设 。 


9.1 预测 和 分 类 


分 类 和 预测 有 很 多 共同 点 。 这 里 将 首先 解释 分 类 和 预测 之 间 的 关系 。 

在 分 类 中 ， 首 先 ， 如 果 提 供 数据 〈 即 ， 具 有 属性 的 记录 ) 和 数据 所 属 类 别 ( 即 分 类 ) 
作为 样本 ， 则 可 基于 其 中 的 一 部 分 或 全 部 来 学 习 分 类 器 。 在 分 类 的 实际 部 署 中 ， 如 果 提 供 
其 类 别 尚 属 未 知 的 新 数据 ， 则 可 通过 使 用 学 习 的 分 类 器 根据 属性 值 来 确定 它们 所 属 的 
Kyl, 

分 类 中 的 类 别 可 以 被 认为 等 同 于 定 类 变量 或 定 序 变量 。 换 句 话 说， 这 样 的 分 类 变量 可 
以 被 认为 是 将 各 个 类 别 作为 离散 值 的 变量 

假设 存在 由 自 变 量 确定 的 连续 因 变量 ， 如 果 因 变量 的 具体 值 可 以 通过 某 些 方法 变 为 离 
散 值 ， 则 在 某 些 情况 下 ， 因 变量 就 可 以 被 认为 是 一 种 分 类 变量 。 总 之 ， 基 于 自 变 量 ， 无 论 
它们 是 离散 的 还 是 连续 的 ， 分 类 都 对 应 于 预测 离散 因 变量 〈 即 ， 类 别 变 量 ) 的 值 。 

实际 上 ， 作 为 决策 树 的 扩展 ， 人 们 创造 了 回归 树 ， 它 可 以 处 理 连 续 值 。 然 而 ， 它 们 可 
以 被 认为 是 类 似 于 预测 的 技术 。 基 于 在 树 上 的 自 变 量 ， 无 论 离散 还 是 连续 ， 由 它们 确定 的 
因 变 量 的 值 ， 通 常 取 连 续 值 。 如 果 可 以 通过 任何 方式 将 连续 因 变 量 离散 化 ， 则 可 以 采用 分 
类 技术 来 预测 值 。 然 而 ， 通 常 不 适合 或 者 本 质 上 难以 将 连续 变量 离散 化 。 总 而 言 之 ， 离 散 
化 意味 着 用 片段 的 单个 标识 符 来 表示 包含 在 某 个 片段 中 的 所 有 不 同 的 连续 值 。 一 般 来 说 ， 
在 离散 变量 的 情况 下 ， 预 测 值 无 法 达到 足够 的 期 望 精度 。 如 果 要 提高 精度 ， 则 所 需 的 片段 
数 将 接近 原始 变量 的 特殊 值 ， 并 且 将 变 得 巨大 。 此 外 ， 用 于 分 类 的 技术 不 一 定 能 处 理 大 量 
类 别 。 
概念 上 ， 分 类 中 的 离散 分 类 变量 甚至 可 以 扩展 到 连续 变量 ( 即 因 变量 )， 并 且 它 们 的 
值 是 基于 因 变 量 之 外 的 变量 〈 即 自 变 量 ) 来 预测 的 。 如 上 所 述 ， 将 分 类 技术 直接 应 用 于 
预测 是 不 合适 的 。 因 此 ， 下 面 将 解释 适合 于 分 类 的 那些 不 同 的 预测 技术 。 

还 请 注意 ， 关 于 准确 性 的 概念 在 分 类 与 预测 之 间 有 所 不 同 。 通 常 在 分 类 中 ， 分 别 准备 
用 于 构建 分 类 模型 的 数据 和 用 于 确认 分 类 模型 准确 性 的 数据 。 在 分 类 中 ， 模 型 构造 和 确认 
使 用 相同 数据 的 方案 称 为 乐观 方案 ， 这 种 方案 应 尽量 避免 。 另 一 方面 ， 在 预测 中 ， 根 据 用 
于 构建 模型 的 可 观察 值 与 由 模型 预测 值 之 间 的 差异 来 计算 模型 的 准确 度 (更 准确 地 说 ， 拟 


合 )。 


is 
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9.2 预测 模型 


一 般 来 说 ， 预 测 中 的 自 变 量 和 因 变 量 分 别 表 示 原 因 和 影响 。 因 此 ， 可 以 使 用 自 变量 的 
值 来 预测 因 变 量 的 值 。 这 里 ， 假 设 可 以 观察 到 自 变 量 和 因 变 量 。 此 外 ， 和 暂时 假设 参与 预测 
的 所 有 变量 都 取 连 续 值 。 

这 里 还 要 解释 一 下 回归 模型 ， 它 可 以 用 来 预测 作为 自 变量 函数 的 因 变 量 。 单 一 自 变 和 
参与 的 情况 被 称 为 简单 回归 模型 ， 而 涉及 两 个 或 多 个 自 变 量 的 情况 则 称 为 多 元 回归 模型 。 
首先 ， 我 们 将 说 明 简 单 地 由 线性 函数 表示 的 线性 回归 模型 。 然 后 ， 再 来 说 明 更 为 高 级 的 多 
变量 分 析 方 法 模型 ， 如 路 径 分 析 模 型 、 多 指标 模型 和 因子 分 析 模 型 。 


9.2.1 多 元 回归 模型 


首先 ， 将 说 明 通 常 由 两 个 或 更 多 自 变量 预测 一 个 因 变 量 的 多 元 回归 模型 。 这 里 ， 使 用 
涉及 三 个 自 变 量 的 简单 示例 来 解释 多 元 回归 模型 。 假 设 因 变量 (成 ) 可 以 由 三 个 自 变量 
(X,, X,, X,) 表示 如 下 : 

© X, =Q, + VX, 十 Yo 下 十 了 +e, 

EP, a, {Yas Yn, Yat 和 e, 分 别 表 示 截 距 、 部 分 回归 系数 和 误差 。 截 距 是 在 所 有 自 变 
量 都 为 0 的 情况 下 的 预测 值 ; 变量 的 部 分 回归 系数 表示 在 变量 的 值 增 加 一 个 单位 并 且 其 他 
变量 都 保持 不 变 的 情况 下 ， 预 测 值 的 增加 ; 误差 是 除 可 观察 变量 之 外 的 残 差 。 

每 个 变量 的 平均 值 (WEWE) 和 方差 可 以 分 别 用 0 和 1 标准 化 ， 而 不 失 一 般 性 。 那 么 
ou 可 以 设置 为 0。 每 个 自 变 量 的 乘积 的 期 望 值 和 误差 也 被 假定 为 0。 一 般 来 说 ， 假 设 在 两 
个 自 变 量 之 间 存 在 相关 性 ( 即 协 方差 ) 。 

确定 变量 的 偏 回 归 系 数 ， 使 得 变量 的 观测 值 和 预测 值 之 间 的 差 ( 即 误差 ) 的 平方 和 
尽 可 能 小 。 这 里 将 要 介绍 确定 系数 。 它 按 久 ,的 观测 值 和 预测 值 之 间 的 多 相关 系数 R 的 平 
方 计算 。 由 尼 表 示 的 确定 系数 的 定义 如 下 : 

(观测 值 - 预测 值 ) 
(观测 值 - 观测 值 的 平均 值 )? 

多 相关 系数 的 意义 可 以 解释 为 自 变量 对 因 变 量 预 测 的 贡献 。 此 外 ,还 有 几 个 指数 可 以 
作为 模型 的 拟 合 。 例 如 ,经常 使 用 的 卡 方 统 计量 。 可 以 通过 观察 值 和 预测 值 之 间 的 差异 来 
测量 拟 合 优 度 。 除 了 卡 方 统 计 之 外 ， 还 存在 许多 模型 拟 合 的 指标 ， 例 如 GF, 

多 元 回归 模型 将 通过 使 用 虚拟 示例 来 解释 。 让 我 们 考虑 以 里 程 、 使 用 年 数 和 距 下 一 次 
法 定 检查 的 月 份 数 作为 自 变 量 ， 以 所 要 预测 的 铁路 车 辆 的 安全 性 作为 因 变 量 ， 假 定安 全 性 
可 以 通过 事故 率 来 计算 。 该 模型 如 图 9. 1 所 示 。 

在 该 图 中 ， 忆 表示 模型 的 确定 系数 ， 并 且 从 每 个 自 变量 到 因 变 量 的 路 径 上 的 值 (例如 
7 安全 合用 4 数 ) 表示 部 分 回归 系数 。 


9.2.2 非 线 性 函数 的 变换 
这 里 ， 我 们 将 从 除 自 变量 的 数值 之 外 的 角度 来 说 明 多 元 回归 模型 和 简单 回归 模型 之 间 


Hi 


R = 
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7 距 下 一 次 法 定 检 查 的 安全 月 份 数 


图 9.1 多 元 回归 模型 


的 关系 。 显 然 ， 简 单 回归 模型 对 应 于 仅 涉 及 单个 自 变 量 的 简化 多 元 回归 模型 。 因 此 ， 一 般 
简单 回归 模型 可 表示 如 下 : 

® Y=cX +e 

然而 ， 视 简单 回归 模型 所 应 用 的 场景 不 同 ， 一 个 自 变量 的 非 线性 函数 可 能 比 线性 函数 
更 能 精确 地 预测 因 变 量 。 下 面 将 考虑 用 一 个 自 变 量 的 非 线性 函数 来 预测 因 变 量 的 情况 。 例 
如 ， 让 我 们 考虑 使 用 自 变 量 的 三 阶 多 项 式 函 数 作为 一 种 非 线性 函数 来 预测 因 变量 如 下 : 

© Y=aX +bX +cX+e 

通过 使 用 关于 多 元 回归 模型 的 知识 ， 我 们 可 以 考虑 上 述 多 项 式 函 数 的 变换 。 如 果 分 别 
引入 三 个 新 变量 X, =X, X, = 系 和 X =X， 则 上 述 公 式 将 变 成 包含 三 个 自 变 量 筷 X MA 
的 多 元 回归 模型 。 通 常 ， 通 过 引入 两 个 或 更 多 新 的 自 变 量 (而 不 是 一 个 自 变 量 ) ， 可 以 将 
最 初 由 一 个 自 变 量 的 非 线 性 多 项 式 表 示 的 简单 回归 模型 转换 为 由 两 个 或 更 多 个 自 变量 组 成 
的 多 元 线性 回归 模型 。 因 此 ， 使 用 这 种 方式 构建 的 多 元 回归 模型 ， 可 通过 自 变量 预测 因 变 
量 。 通 常 ， 在 p 阶 多 项 式 的 情况 下 ， 需 要 多 于 p 个 的 不 同 数据 。 特 别 地 ， 仪 在 自 变 量 的 值 
在 小 范围 内 变化 且 阶 数 p 较 小 的 情况 下 ， 才 推荐 使 用 该 技术 预测 。 


9.2.3 路 径 分 析 模 型 


让 我 们 再 次 考虑 9.2.1 节 多 元 线性 回归 分 析 的 例子 。 如 果 更 深入 地 考虑 这 个 例子 ， 使 
用 年 数 很 可 能 会 影响 里 程 。 此 外 ， 预 计 使 用 年 数 和 距 下 一 次 法 定 检查 的 月 份 数 之 间 没 有 关 
系 。 如 果 考 虑 这 样 的 条 件 ， 这 个 例子 将 超过 多 元 回归 模型 的 能 力 。 这 是 因为 多 元 回归 模型 
通常 假定 只 存在 一 个 受 自 变量 影响 的 因 变 量 ， 并 且 在 自 变量 之 间 存 在 相关 性 。 然 而 ， 自 变 
量 之 间 存 在 “ 太 强 ”的 相关 性 引发 了 多 重 共 线 性 问题 。 

可 以 直接 处 理 这 种 约束 的 分 析 模 型 之 一 是 路 径 分 析 模 型 [Kline 2011 ] ， 表 示 该 示例 的 
路 径 分 析 模 型 如 图 9. 2 所 示 。 

在 路 径 分 析 模 型 中 ， 诸 如 yz ag 之 类 的 附加 到 路 径 的 每 个 值 称 为 路 径 系数 ， 它 等 价 
于 多 元 回归 模型 中 的 部 分 回归 系数 ( 见 图 9.2) 。 通 过 类 似 于 先前 的 标准 化 ， 变 量 的 平均 
值 和 方差 分 别 被 设置 为 0 和 1。 

在 这 个 例子 中 ， 使 用 年 数 可 以 通过 两 条 路 径 影响 安全 性 。 一 条 直接 路 径 对 应 于 使 用 年 
数 对 安全 的 直接 影响 ， 而 经 过 里 程 的 另 一 条 间接 路 径 对 应 于 间接 效应 。 间 接 路 径 上 所 有 系 
数 的 乘积 累积 了 间接 效应 。 以 起 源 于 自 变量 使 用 年 数 和 到 达 因 变量 安全 性 的 所 有 路 径 的 影 
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7 里 程 使 用 年 数 


?中 下 一 次 法 定 检查 的 安全 月 份 数 


9.2 路 径 分 析 模型 


响 的 总 和 作为 整体 ， 计 算 自 变量 对 因 变 量 的 累积 贡献 ， 即 从 使 用 年 数 到 安全 性 的 总 效应 。 
也 就 是 说 ， 在 这 种 情况 下 总 效应 是 使 用 所 有 路 径 系 数 计算 的 ， 如 下 所 示 : 


Y 里 程 使 用 年 数 X YY 安全 里 程 十 Y 安全 使 用 年 数 


9.2.4 多 指标 模型 


到 目前 为 止 ， 我 们 已 经 假定 可 以 观察 到 所 有 的 变量 。 然 而 ， 实 际 上 并 不 是 总 能 观察 到 
所 有 变量 ， 而 是 可 以 观察 到 自 变 量 和 因 变 量 。 一 些 应 用 程序 需要 处 理 抽象 概念 ， 如 智能 和 
流行 。 我 们 不 可 能 知道 这 些 抽象 概念 会 对 应 于 什么 样 的 值 ， 也 不 可 能 观察 到 该 值 。 

考虑 这 种 隐 结 构 作 为 分 析 目 标 而 发 明 的 技术 统称 为 协 方差 结构 分 析 或 结构 方程 模型 
(Structural Equation Modeling，SEM) ， 它 包括 因子 分 析 模 型 和 多 指标 模型 。 这 里 ， 未 观察 
到 的 变量 称 为 隐 变 量 。 

首先 ， 将 描述 多 指标 模型 。 多 指标 模型 假设 隐 变 量 之 间 存 在 因果 关系 。 包 含 两 个 隐 变 
E (Fr, 和 ,表示 两 个 因子 ) 的 多 指标 模型 如 图 9. 3 所 示 。 其 中 ， 因 子 FNF F, 


图 9.3 多 指标 模型 


X =A F +e: 测量 方程 
X, =À, F, +e, 
X, =À; F, +e, 
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X,=A,F, +e, 

Fy =F, +d,: 结构 方程 

Nis Ans Ags Nags Vo, 等 效 于 多 元 线性 回归 模型 中 的 部 分 回归 系数 ， 也 称 为 路 径 分 析 
模型 中 的 路 径 系 数 。 涉 及 可 观察 变量 的 方程 和 仅 涉 及 隐 变 量 的 方程 分 别称 为 测量 方程 和 结 
构 方程 。 然 而 ， 它 们 都 具有 完全 相同 的 结构 。 每 个 因素 的 期 望 值 和 方差 分 别 标准 化 为 0 和 
1。 此 外 ， 假 设 因 子 之 间 存 在 因果 关系 。 

e; 和 qd, 不 能 被 观察 到 。 从 这 个 意义 上 讲 ， 它 们 也 是 一 种 隐 变 量 ， 可 以 说 它们 是 误差 。 
此 外 ,假设 在 误差 为 |e,, d,| 的 两 个 不 同 元 素 之 间 ， 以 及 在 任何 因子 和 任何 误差 之 间 不 存 
在 相关 性 。 


9.2.5 因子 分 析 模 型 


如 多 指标 模型 一 样 ， 因 子 分 析 模 型 考虑 两 个 或 多 个 隐 变 量 。 因 子 分 析 模 型 中 的 隐 变 量 
称 为 公 因子 或 短 因子 。 因 子 分 析 模 型 通常 假定 观察 变量 可 以 由 两 个 或 更 多 隐 变 量 来 解释 。 

男 一 方面 ， 与 多 指标 模型 不 同 ， 因 子 分 析 模 型 不 允许 隐 变 量 ( 即 因子 ) 之 间 存 在 因 
果 关 系 ， 也 不 允许 观察 变量 之 间 存 在 因果 关系 。 然 而 ,一 般 来 说 ， 因 子 分 析 模 型 假设 因子 
间 的 相关 性 和 观察 变量 之 间 的 相关 性 。 

在 因子 分 析 模 型 中 ， 因 子 作为 常见 原因 引起 两 个 或 多 个 变量 之 间 的 相关 性 。 例 如 ， 由 
四 个 观测 变量 和 两 个 因子 组 成 的 简单 模型 表示 如 下 (ILE 9. 4) : 


图 9.4 因子 分 析 模 型 


X =A, F, 十 人 +e, 

X, =À uF, +AyF, +e, 

X, =À F, +A,F, +e 

X, =À Fi +tÀpF, +e, 

到 目前 为 止 ， 称 A 为 路 径 系数 ， 特 别 地 ， 在 因子 分 析 模 型 中 称 它 为 因子 负载 。 在 该 示 
例 中 ， 每 个 观察 到 的 变量 都 受到 两 个 因子 的 影响 。 


9.2.6 因子 的 旋转 
如 已 解释 的 ， 探 索性 数据 分 析 作为 假设 构建 任务 ， 而 确认 数据 分 析 则 作为 假设 验证 任 


Ae 


第 9 章 A Ml 101 


务 。 特 别 是 在 因子 分 析 中 ， 前 者 和 后 者 分 别 被 称 为 解释 性 因子 分 析 和 确认 性 因子 分 析 。 

对 于 确认 性 因子 分 析 ， 在 代表 因子 影响 的 因子 负载 中 ， 一 些 因 子 负载 固定 为 常数 ( 通 
常 为 0) ， 其 余 的 因子 负载 则 被 假定 为 可 变 参 数 。 另 一 方面 ， 解 释 性 因子 分 析 可 以 用 来 确 
定 所 有 因子 负载 ， 而 不 必 再 选择 特定 因子 负载 并 将 值 固 定 为 常数 作为 确认 因子 分 析 。 

在 这 里 ， 考 虑 探索 性 因子 分 析 模 型 。 

首先 ， 两 个 或 更 多 因子 被 假定 为 正 交 坐标 系 中 的 一 组 基 向 量 。 如 果 这 些 因子 没有 相关 
性 ， 则 实现 该 假设 。 然 后 ， 每 个 变量 可 以 被 认为 是 在 具有 因子 负载 作为 分 量 的 正 交 坐标 系 
中 的 向 量 。 如 果 可 以 改变 因子 负载 ( 即 向 量 的 分 量 ) ， 使 得 即使 该 正 交 坐标 系 被 旋转 ， 向 
量 之 间 的 长 度 和 相对 空间 关系 也 依然 保持 不 变 ， 那 么 就 可 以 说 该 向 量 的 集合 表示 原始 变量 
的 集合 。 

现在 ， 通 过 使 用 任意 的 正 交 和 矩阵 (BU BES 的 转 置 矩阵 与 它 的 逆 矩 阵 相 同 ) ， 变 量 和 
因子 之 间 的 关系 可 以 做 如 下 变换 : 

x =Af+e=(AS") (Sf) +e 

HEx f Fil e ZY ll Ze my WSS BI Ee, ATRA, ME A 表示 因子 负载 。 这 里 ， 
如 果 将 SF 和 4S 分 别 作为 新 因子 和 新 因子 负载 ， 则 观测 变量 的 值 保持 不 变 。 

首先 ， 正 交 和 矩阵 通常 可 以 用 来 表示 向 量 的 旋转 。 也 就 是 说 ， 坐 标 系 的 旋转 和 因子 负载 
的 调整 可 以 通过 正 交 和 矩阵 来 完成 。 一 般 来 说 ， 如 果 两 个 向 量 不 改变 相对 空间 关系 ， 则 它们 
之 间 的 相关 系数 也 不 会 改变 。 因 此 ， 由 方差 和 协 方差 组 成 的 抢 阵 也 不 会 改变 。 总 之 ， 基 于 
协 方差 〈 或 相关 性 ) 的 解释 性 因子 分 析 模 型 基本 上 具有 旋转 自由 。 

接 下 来 ， 将 考虑 两 个 或 更 多 因子 之 间 存 在 相关 性 的 情况 。 在 这 种 情况 下 ， 所 需要 的 仅 

仅 是 考虑 用 于 变换 的 倾斜 坐标 系 ， 而 不 是 正 交 坐 标 系 。 在 这 种 情况 下 ， 不 是 使 用 正 交 和 抢 阵 
而 是 使 用 规则 矩阵 来 旋转 向 量 。 
规则 抢 阵 是 具有 逆 和 矩阵 的 方 阵 。 因 此 ， 规 则 抢 阵 也 称 为 可 逆 和 矩阵 。 也 就 是 说 ， 即 使 任 
ALU FEM TPE AH Tf 和 新 因子 负载 47 ， 方 差 - 协 方差 矩阵 仍 保持 不 变 。 假 设 在 
正 交 和 抢 阵 的 情况 下 ， 如 果 原 始 因 子 和 因子 负载 分 别 由 使 用 规则 和 矩阵 的 新 因子 和 因子 负载 代 
替 ， 则 可 以 执行 任意 旋转 ( 如 ， 倾斜 旋转 ) 。 
如 上 所 述 ， 不管 因子 之 间 是 否 存在 相关 性 ， 因 子 分 析 模 型 都 具有 旋转 自由 ， 因 此 具有 
不 能 唯一 确定 模型 的 问题 。 作 为 因子 分 析 中 这 种 模型 识别 问题 的 解决 方案 ， 人 们 提出 了 一 
种 强调 因子 负载 值 差 异 的 选择 变换 矩阵 的 方法 。 也 就 是 说 ， 变 换 矩 阵 使 得 接近 0 的 负载 更 
靠近 0， 而 远离 0 的 负载 则 进一步 远离 0。 


9.2.7 结构 方程 模型 研究 


这 里 我 们 将 再 次 解释 协 方差 结构 模型 或 结构 方程 模型 (SEM) ， 它 们 都 可 以 根据 观察 
变量 之 间 的 方差 和 协 方差 来 建 模 因 果 关 系 。 
首先 ， 定 义 基 本 概念 。 关 于 一 个 变量 * 的 平均 值 和 方差 的 定义 如 下 : 


-LY a 
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两 个 变量 x 和 y 的 协 方差 表示 为 如 下 的 方差 
es, = È C - m,) (y; = m,) 


此 外 ， 相 关系 数 的 定义 如 下 : 


bo es Su 


因此 ， 协 方差 为 0 的 事实 与 相关 性 为 0 的 事实 一 致 。 两 个 变量 的 相关 性 为 0 意味 着 变 
量 没 有 相互 关联 ， 即 不 相关 。 此 外 ， 如 果 每 个 变量 标准 化 使 得 方差 为 1， 则 协 方差 和 相关 
系数 相等 。 

再 次 考虑 下 面 的 例子 ( 见 图 9.5) 。 

e X =À Fi +e, 

e X, =À, F, +e, 

e X, =À F, +e, 

® X, =ÀpF, +e, 

e F, =Y, „F, +d, 


图 9.5 结构 方程 模型 (SEM) 


这 里 将 考虑 以 方差 和 协 方差 作为 其 分 量 的 矩阵 。 这 样 的 矩阵 被 称 为 方差 - 协 方 差 矩 

阵 。 上 述 模 型 中 隐 变 量 F 和 ,的 方差 - 协 方差 矩阵 可 表示 如 下 : 
var( F) cov(F, ,F,) 

j ae var( F, ) | 

和 矩阵 中 的 每 个 分 量 都 可 以 被 表示 为 变量 之 间 直 接 路 径 的 一 个 路 径 系数 ( 即 ， 直 接 效 
应 ) 或 者 间接 路 径 的 路 径 系 数 的 乘积 ( 即 ， 间 接 效应 ) 。 如 果 在 变量 之 间 有 两 条 或 多 条 路 
径 ， 则 该 分 量 表示 为 变量 之 间 路 径 系数 的 和 或 者 每 条 路 径 的 路 径 系 数 的 乘积 ( 即 ， 总 效 
应 ) 的 和 。 假 设 隐 变量 是 标准 化 的 ， 一 些 分 量具 体 表示 如 下 : 

e var(F,) =e =1 


® cov(F,, Fy) =Y¥aP = Yn 
观察 到 的 变量 X, 的 方差 - 协 方差 矩阵 也 可 表示 如 下 : 
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var(X,) cov(X,,X,) cov(X,,X,) cov(X,,X,) 
cov(X,,X,) var(X,) cov(X,,X,;) cov(X,,X,) 
cov(X,,X,) cov(X,,X,) var(X,) cov(X,,X,) 
cov(X,,X,) cov(X,,X,) cov(X,,X,) var(X,) 
类 似 地 ， 一 些 分 量具 体 表 示 如 下 : 
e var(X,) =Aj, +9, =1 
® cov(X,, X,) =A,,A,, 
e cov(X,, X) =Ay A 
其 中 ，0, 表 示 误 差 e 的 方差 。 
因此 ， 协 方差 结构 模型 或 结构 方程 模型 (SEM) 具备 综合 表示 已 经 描述 的 ， 诸 如 多 元 
回归 模型 、 路 径 分 析 模 型 、 多 指标 模型 和 因子 模型 等 各 种 模型 的 能 力 。 有 关 结 构 方 程 模型 
(SEM) 的 详细 信息 ， 请 参阅 [Kline 2011], 


9.2.8 因子 修正 或 降 维 


再 次 考虑 在 因子 分 析 模 型 中 所 引入 的 因子 的 作用 。 引 入 因子 作为 影响 观察 变量 的 隐 变 
量 。 从 结构 上 讲 ， 一 个 因子 可 以 看 成 是 封装 两 个 或 多 个 观察 变量 的 变量 。 因 此， 这 些 因 子 
可 以 减少 所 观察 到 的 变量 的 数量 。 当 然 ， 该 特征 不 一 定 能 解决 计算 复杂 性 的 可 扩展 问题 。 
然而 ， 它 至 少 在 概念 层面 有 助 于 解决 降低 维度 的 问题 。 

这 里 ， 将 集体 审查 可 用 于 降低 维度 的 数据 挖掘 技术 。 其 他 可 扩展 性 相关 技术 则 将 在 单 
独 的 章节 中 解释 。 

在 关联 分 析 的 概念 层次 中 ， 通 过 概念 性 地 抽象 项 目 并 使 用 与 超级 概念 相对 应 的 项 目 ， 
可 以 大 大 减少 维度 。 然 而 ， 由 于 这 种 做 法 通常 趋向 于 增加 项 目 集 的 支持 计数 ， 所 以 它 可 能 
使 得 吞吐 量 ( 即 ， 数 据 库 访问 ) 相当 大 。 

潜在 语义 索引 (Latent Semantic Indexing, LSI) 常用 于 聚 类 和 搜索 文本 文档 。 首 先 ， 
LSI 执行 奇异 值 分 解 (Singular Value Decomposition ，SVD ) 。 然 后 ，LSI 选择 nn 个 最 大 奇异 
值 ， 使 得 n 小 于 原始 数据 的 维度 ， 并 且 通 过 使 用 与 所 选择 的 奇异 值 相对 应 的 维度 将 原始 数 
Het A BBE RAE Zs Tia] FP, LST 选择 维度 以 便 尽 可 能 好 地 表示 原始 数据 。 

在 聚 类 分 析 中 ， 位 置 保留 索引 (Locality - Preserving, Indexing, LPI) [Cai et al. 2005 | 
也 可 用 于 减少 维度 。 该 方法 基于 由 上 - NN 包括 的 数据 向 量 的 内 积 或 余弦 度量 ， 将 数据 从 
较 高 维 空间 映射 到 较 低 维 空间 ， 保 持 数 据 之 间 的 相似 性 。LPI 和 LSI 都 使 用 SVD 来 去 除 等 
于 0 的 奇异 值 。 然 而 ，LPI 的 主要 目的 是 保持 映射 中 的 数据 之 间 的 距离 ， 而 LSI 则 由 在 在 
能 入 中 很 好 地 表示 原始 数据 。 

然而 ， 如 果 维 度 的 原始 数量 为 N， 数 据 量 为 O(N)， 那么 对 于 常用 的 SVD 方法 (如 
QR) ， 其 计算 复杂 度 为 0(N )。 因 此 ， 在 高 维度 的 情况 下 ,仅仅 应 用 基于 SVD 的 方法 可 
能 会 出 现 问 题 。 

自 组织 图 (Self - Organizing Map, SOM) 可 以 分 组 相似 的 数据 ， 如 聚 类 分 析 ， 也 可 用 
于 低 维 空间 中 数据 的 可 视 化 。 对 于 输入 层 的 高 维度 数据 ，SOM 在 输出 层 的 节点 (单位 ) 
中 找到 与 原始 数据 具有 相同 维 数 并 且 最 接近 数据 的 权重 向 量 节点 ， 它 是 较 低 维 (通常 为 二 
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维 或 三 维 ) 合成 物 。 这 样 的 节点 被 称 为 最 佳 匹 配 单 元 (Best Matching Unit，BMU ) 。 此 外 ， 
SOM 在 输出 层 将 BMU 和 最 近 节 点 的 权重 向 量 更 新 为 BMU, 使 得 这 些 节 点 更 接近 输入 数 
据 。SOM 单调 地 减 小 BMU 的 最 近 节 点 的 搜索 范围 和 上 述 处 理 的 每 次 重复 中 的 向 量 权 重 的 
增 量 值 。 因 此 ， 在 可 视 化 阶段 ， 由 SOM 收集 的 类 似 节 点 可 以 构成 聚 类 ， 因 为 每 个 输入 数 
据 被 分 配给 最 近 的 节点 。 对 于 SOM 的 并 行 分 布 式 处 理 ， 笔 者 和 笔者 的 同事 [ Goto et 
al. 2013] 使 用 散 列 函数 ， 可 以 在 Hadoop 的 MapReduce 环境 下 搜索 BMU 中 保留 向 量 之 间 的 
邻近 度 。 

分 类 中 的 属性 删除 是 仅 为 分 类 任务 选择 重要 属性 。 无 论 启发 式 方法 在 优化 精度 的 目标 
时 是 基于 相关 性 分 析 还 是 系统 方法 ， 这 样 做 都 相当 于 直接 降 维 。 

因子 分 析 模 型 中 的 因子 可 以 用 第 2 章 中 介绍 的 MiPS 模型 的 大 对 象 来 表示 。 在 这 种 情 
况 下 ， 依 赖 于 因子 的 变量 对 应 于 大 对 象 的 属性 。 多 指标 模型 中 的 因子 则 也 可 以 类 似 地 由 大 
对 象 表示 。 因 此 ， 可 以 至 少 在 大 对 象 概念 级 别 降低 属性 级 别 的 高 维度 灾难 。 


[Cai et al. 2005] Deng Cai, Xiaofei He and Jiawei Han: Document Clustering Using Locality 
Preserving Indexing, Ieee Transactions on Knowledge and Data Engineering 17(12): 
1624-1637 (2005). 

[Goto et al. 2013] Yasumichi Goto, Ryuhei Yamada, Yukio Yamamoto, Shohei Yokoyama and 
Hiroshi Ishikawa: SOM-based Visualization for Classifying Large-scale Sensing Data of 
Moonquakes, In Proc. 4th International Workshop on Streaming Media Delivery and 
Management Systems, Compiegne France (2013). 

[Kline 2011] R.B. Kline: Principles and practice of structural equation modeling, Guilford 
Press (2011). 


38.10% Web 结构 挖掘 


KEMAT Web 挖掘 的 基本 概念 ， 并 着 重 介绍 Web 结构 挖 气 。 首 先 ， 将 文献 计量 学 
作为 Web 结构 挖掘 的 初步 阶段 引入 ， 然 后 将 研究 人 员 对 网 页 所 进行 的 学 术 价值 上 的 计算 
作为 Web 结构 挖 据 来 介绍 。 


10.1 Web +z 


数据 密集 型 Web 系统 通常 包括 Web AA ( 即 网 页 ) Web 服务 器 中 的 Web 访问 日 志 
( 即 用 户 访问 历史 ) 和 后 端的 数据 库 ( 见 图 10.1) 。 换 句 话 说， 这 样 的 网 络 系统 作为 一 个 
整体 构成 了 一 个 网 络 数据 库 系 统 。 在 这 些 数据 中 ， 内 容 被 建 模 为 网 页 和 链接 ( 超 链接 ) 
的 图 形 结 构 ， 分 别 对 应 于 节点 和 边 。 狭 义 地 讲 ， 网 页 内 容 可 以 是 除 链 接 之 外 的 媒体 数据 ， 
例如 网 页 内 的 文本 和 照片 。 笔 者 也 对 此 持 这 种 观点 。 


| 
Web 用 户 网 络 Web 应 用 | 数据 库 
A 服务 器 服务 器 服务 器 
内 容 访问 日 志 数据 库 


图 10.1 Web 数据 库 的 体系 结构 

在 这 里 ， 我 们 将 链接 、 页 面 中 的 文本 和 访问 日 志 作为 Web 挖掘 的 目标 。 后 面 将 分 开 
描述 挖掘 多 媒体 数据 和 数据 库 。 因 此 ， 根 据 其 主要 目标 的 不 同 ，Web 挖掘 可 大 致 分 为 以 下 
三 种 类 别 : 

1. 结构 挖掘 以 网 页 的 图 形 结构 为 目标 ( 即 链接 结构 ) 。 

2. 内 容 挖掘 以 网 页 的 内 容 ( 即 文本 ) 为 目标 。 

3. 历史 挖掘 以 Web 访问 日 志 为 目标 。 

请 注意 ， 一 些 研 究 或 技术 可 能 完全 严格 的 只 被 归 为 某 一 个 类 别 。 

本 节 中 ， 那 些 能 够 通过 分 析 Web 的 图 结构 来 发 现 有 意义 的 模式 和 结构 的 技术 将 按 如 
下 的 顺序 进行 介绍 : 

。 文献 计量 学 (影响 因子 和 bh 指数 ) 

© Web 链接 分 析 (声望 、PageRank 和 HITS) 
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10.2 ”结构 挖掘 


10.2.1 文献 计量 学 


文献 计量 学 一 直 是 一 个 独立 的 科学 领域 ， 在 网 络 出 现 之 前 ， 它 旨 在 通过 对 著作 和 作者 
进行 定量 分 析 ， 达 到 识别 文学 作品 (特别 是 学 术 书 籍 和 论文 ) 和 作者 以 及 他 们 之 间 关 系 
的 目的 。 到 目前 为 止 ， 文 献计 量 学 已 经 发 展 出 了 下 面 的 概念 和 定律 : 

© Lotka 定律 是 关于 写作 生产 力 的 统计 法 。 

。 Zip 定律 是 关于 著作 内 容 的 统计 法 。 

© 某 个 著作 被 男 一 篇 著作 引 用 的 次 数 与 被 引 著 作 的 影响 力 密切 相关 。 

e 共 引 是 指 同 时 被 某 一 著作 引用 的 两 个 或 两 个 以 上 的 著作 ( 即 两 个 或 两 个 以 上 的 著 
作 在 引用 中 一 致 ) 可 用 于 测量 被 引用 著作 之 间 的 相似 性 。 

。 共同 参考 指引 用 同一 著作 的 两 个 或 两 个 以 上 的 著作 ， 可 用 于 测量 引用 著作 之 间 的 
相似 性 。 

。 影响 因子 通过 分 析 在 学 术 期 刊 上 发 表 的 著作 的 被 引用 次 数 来 计算 ， 根 据 该 数据 可 
衡量 期 刊 的 影响 力 。 

如 果 著 作 和 引用 分 别 扩 展 到 页 面 和 链接 ， 则 上 述 定律 和 概念 可 用 于 分 析 网 页 以 及 文 
章 。 首 先 ， 简 要 介绍 Lotka 定律 和 Zipf 定律 ， 有 关 引 文 的 其 余 概 念 将 在 稍 后 详细 描述 。 

(1) Lotka 定律 

这 是 关于 作者 生产 力 频 率 分 布 的 统计 规律 。 记 PP 为 作者 所 发 表 的 著作 的 数量 ，4 为 该 
作者 所 对 应 的 频率 ， 那 么 有 下 面 的 经 验 规则 : 

e Anup 
其 中 ，e 是 正 数 ( 约 为 2) Lotka 定律 认为 作者 发 表 的 文章 数 越 多 ， 其 发 表 的 频率 就 会 越 
小 〈 见 图 10. 2a)。 

(2) Zipf 定律 

这 是 一 个 关于 一 篇 著作 中 出 现 的 单词 的 频率 分 布 的 定律 。 邻 R 为 著作 中 单词 按照 其 使 
用 频率 由 高 到 低 排序 时 某 个 单词 对 应 的 次 序号 , S 不是 频率 ， 则 有 下 面 的 经 验 法 则 成 立 : 

e WaR” 

Zipf 定律 认为 ， 单 词 的 频率 与 其 次 序号 成 反比 (IE 10. 2b)。Litka 定律 和 Zipf 定律 
都 是 有 力 的 规则 [ Broder et al. 2000] 。 


10.2.2 引用 参考 数据 库 和 影响 因子 


(1) 引用 参考 数据 库 

关于 引用 ， 我们 将 介绍 Web 上 可 用 的 被 引文 献 的 数据 库 。Google 学 术 搜索 [ Google 
Scholar 2014] 和 CiteSeer [ CiteSeer* 2014] 都 是 关于 引用 参考 数据 库 的 Web 服务 ， 它 们 
人 允许 用 户 找 到 引用 了 某 一 篇 论文 的 所 有 论文 ， 并 知道 引用 的 次 数 。 

作为 Google 提供 的 服务 之 一 ，Google 学 术 搜索 能 够 使 用 户 通过 指定 搜索 词 、 作 者 、 标 
题 、 关 键 字 和 发 布 时 间 (如 果 需 要 ) 检索 文献 信息 。 诸 如 标题 、 作 者 、 来 源 、 电 子 版 
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图 10.2 关于 作者 生产 力 频 率 分 布 的 统计 规律 


(PDF 和 PS 格式 )、 引 用 它 的 论文 、 引 用 它 的 位 置 ， 以 及 引用 的 数量 等 信息 可 以 构成 返回 
的 搜索 结果 。 因 此 ， 页 面 和 链接 分 别 对 应 于 论文 和 论文 之 间 的 引用 关系 。 
通常 ， 这 些 引 用 的 文献 数据 库 是 基于 Web 上 的 数据 自动 构建 的 。 也 就 是 说 ， 利 用 国 
际会 议 的 议程 或 与 期 刊 的 出 版 内 容 相 关 的 信息 来 收集 论文 ， 而 这 些 信 息 则 可 通过 搜索 引擎 
的 执行 、 监 视 邮件 列表 和 发 布 网 站 ， 以 及 直接 访问 出 版 公司 的 网 站 来 获取 。 对 所 收集 文献 
的 分 析 也 是 自动 进行 的 。 

数字 书目 和 图 书馆 计划 (Digital Bibliography & Library Project, DBLP) [DBLP 2014] 
类 似 于 谷歌 学 术 搜索 。 它 由 大 学 研究 员 Michael Ley 创立 ， 并 管理 着 约 160 万 篇 计算 机 科学 
领域 的 文献 。 每 位 作者 的 论文 会 按时 间 先 后 顺序 排列 。 每 篇 论文 的 条 目 包 括 标题 、 来 源 和 
此 向 其 详细 信息 的 页 面 及 其 电子 版 的 链接 。 条 目 中 还 包括 了 论文 在 类 似 服 务 (如 Google 
学 术 搜索 和 CiteSeer’) 的 链接 ， 以 允许 用 户 知道 论文 的 引用 关系 。 当 然 ， 也 可 以 通过 指定 
会 议 或 期 刊 以 及 作者 或 标题 来 搜索 论文 。DBLP 中 每 位 作者 的 页 面 也 是 自动 生成 的 。 期 刊 
或 国际 会 议 的 目录 页 (Table of Contents, TOC) 首先 被 检索 ， 并 存储 为 一 个 名 为 TOC OUT 
的 文件 。 作 者 的 页 面 在 TOC OUT 文件 下 创建 ， 所 有 作者 的 姓名 会 被 提取 并 存储 到 一 个 名 
为 AUTHORS 的 文件 中 。 此 外 ， 指 向 作者 页 面 的 链接 是 通过 TOC OUT 文件 和 AUTHORS 文 
Ei Be A BY TOC 页面 的 。 

另外 ， 来源 于 清华 大 学 一 个 研究 项 目的 Web 服务 ArnetMiner [ ArnetMiner 2014], tH 
及 示 了 挖掘 社交 网 络 的 结果 ， 它 的 对 象 包括 研究 人 员 ( 即 作者 ) 、 会 议和 文字 。 在 Armet- 
Miner 中 ， 作 者 页 面包 括 作者 的 介绍 和 著作 列表 ， 著 作 的 引用 以 及 作者 的 指数 。 此 外 ， 
著作 的 排名 、 会 议和 期 刊 也 都 包含 在 AmetMiner 的 页 面 中 。 

Web of Science 是 一 个 商用 的 被 引文 献 数 据 库 [ Web of Science 2014] 。 该 数据 库 提供 的 
科学 引文 索引 (Science Citation Index, SCI) 由 于 收集 和 分 析 的 期 刊 都 是 很 严格 的 ， 因 而 
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在 衡量 研究 人 员 的 成 就 方面 具有 一 定 的 权威 性 。 首 先 ， 一 个 基本 的 期 刊 集 被 收录 并 且 被 称 
为 SCI。 然 后 ， 另 一 个 被 称 为 扩展 SCI 的 期 刊 集 (在 写本 书 时 包含 8608 HHP) 被 视 为 
SCI 的 超 集 ， 并 且 使 用 扩展 SCI 创建 被 引文 献 的 数据 库 。 也 就 是 说 ， 论 文 的 引用 次 数 是 基 
于 扩展 SCI 进行 计算 的 。 

例如 ，SCI 在 数据 库 和 数据 挖掘 领域 包括 以 下 期 刊 ; 

© ACM 数据 库 系 统 学 报 - ACM TRANSACTIONS ON DATABASE SYSTEMS (TODS) 

e IEEE 知识 与 数据 工程 学 报 - IEEE TRANSACTIONS ON KNOWLEDGE AND DATA 
ENGINEERING (TKDE) 

然而 ， 关 于 如 何 构建 SCI 的 细节 是 未 知 的 ， 因 为 它 是 商业 秘密 。 

在 日 本 ， 国 立 情报 学 研究 所 (National Institute of Informatics, NIL) 运行 着 NI 引用 文 
献 信 息 导 航 CiNii [ CiNii 2014] 。 虽 然 Google 是 一 个 通用 搜索 引擎 ， 但 Google 学 术 搜 索 却 
是 一 个 垂直 搜索 引擎 ， 专 门 用 来 研究 学 术 领 域 (如 计算 机 科学 ) 的 论文 。 

(2) 影响 因子 

以 下 将 对 与 引用 相关 的 影响 因子 进行 说 明 。 某 个 期 刊 特定 年 份 的 影响 因子 是 两 年 内 发 
表 在 该 期 刊 上 所 有 文章 的 被 引用 次 数 之 和 除 以 所 发 表 文 章 的 总 数量 。 设 第 y 年 中 论文 p 的 
被 引用 次 数 为 < 引用 数 , > ，< 影响 因子 , > 是 第 y 年 的 期 刊 影响 因子 ，| 论文 ,, ,|| 是 过 
去 两 年 发 表 的 论文 集合 。 那 么 ， 影 响 因子 由 下 列 公式 表达 : 

(定义 ) 影响 因子 


引用 数 


i yP 
。 影 响 因子 y = 
ie se 


总 而 言 之 ， 期 刊 在 某 一 年 的 影响 因子 代表 了 期 刊 上 发 表 的 所 有 文章 在 前 两 年 的 平均 被 
引用 次 数 。 

例如 ，2009 年 TODS 和 TKDE 在 计算 机 科学 中 的 影响 因子 分 别 为 1.245 和 2.285。 一 
般 来 说 ， 影 响 因 子 高 的 期 刊 是 比较 重要 的 。《 自 然 》 与 《科学 》 是 自然 科学 领域 的 顶级 期 
刊 ， 其 在 2009 年 的 影响 因子 分 别 为 34. 480 和 29. 747。 这 些 科 学 杂志 的 影响 因子 明显 高 于 
前 面 计算 机 科学 的 期 刊 。 

请 注意 ,论文 的 平均 页 数 取 决 于 具体 的 期 刊 。 这 种 差异 可 能 在 不 同 的 领域 会 有 很 大 差 
距 ( 例 如， 自然 科学 和 计算 机 科学 )。《 上 自然 》 和 《科学 》 的 典型 论文 长 度 分 别 约 为 2 和 
4。 男 一 方面 ， 在 TODS 上 一 些 文章 可 能 会 达到 50 页 。 如 果 被 高 度 引 用 的 论文 包含 在 期 刊 
中 ， 则 期 刊 的 影响 因子 自然 会 提高 。 特 别 地 ， 如 果 杂 志 中 包含 评论 论文 ( 即 综述 论文 ) ， 
则 期 刊 的 影响 因子 将 增长 。 此 外 ， 影 响 因子 在 某 些 领域 也 有 不 能 反映 的 情况 ， 比 如 三 年 前 
发 表 的 论文 也 会 经 常 被 引用 ， 或 者 说 论文 的 衰退 期 是 很 漫长 的 。 由 此 看 来 ， 虽 然 影响 因子 
肯定 是 一 个 衡量 期 刊 影响 力 的 重要 指标 ,但 它 不 能 用 于 衡量 个 别论 文 的 重要 性 。 


10.2.3 h 指数 一 一 学 术 研 究 者 的 价值 


如 何 定 义 一 个 研究 者 的 价值 ? 是 否 应 该 以 他 们 发 表 的 学 术 论 文 来 作为 评估 依据 ? 当 
然 ， 撰 写 论文 是 不 能 代表 研究 者 的 全 部 价值 的 。 除 了 研究 能 力 本 身 ， 管 理科 研 项 目 和 教育 
学 生 的 能 力 ， 以 及 对 学 术 领 域 、 工 业 和 社会 的 贡献 实际 上 也 都 是 对 研究 人 员 的 要 求 。 不 


U 
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过 ， 证 我 们 从 论文 创作 的 角度 考虑 一 下 研究 者 的 价值 。 例 如 ， 研 究 人 员 所 有 论文 的 被 引用 
次 数 的 平均 值 是 否 能 够 体现 其 价值 ? 或 者 是 最 大 引用 数量 是 否 能 够 体现 其 价值 ”使 用 平均 
引用 次 数 可 能 不 利于 大 量 创作 论文 的 研究 人 员 ， 有 利 的 只 是 创作 少量 论文 的 研究 人 员 。 但 
是 另 一 方面 ， 研 究 人 员 的 最 大 引用 数量 却 不 能 反映 研究 人 员 的 创作 能 

物理 学 家 Jorge E. Hirsch 已 经 提出 将 h 指数 作为 这 个 问题 的 答案 [Hirsch 2005], N 作 
为 研究 者 的 h 指数 的 值 意味 着 研究 者 的 至 少 和 N 篇 论文 已 被 至 少 引 用 NN 次。 不 像 基 于 聚合 函 
数 的 方法 ( 如 平均 值 和 最 大 值 )， 研 究 者 的 b 指数 只 是 一 个 标量 值 ， 它 可 以 表示 研究 者 生 
产 力 和 学 术 的 研究 程度 的 合计 。 因 此 ，h 指数 不 能 表达 极 值 ， 例 如 最 大 被 引用 数 或 总 论文 
数 。h 指数 以 及 影响 因子 是 不 适合 比较 不 同 领域 研究 人 员 的 价值 的 。 

一 些 学 术 服 务 (如 Publish 或 Perish, scHolar 指数 ) 使 用 Google 提供 的 引用 数量 来 计 
算 学 者 的 h 指数 。 这 是 一 个 专门 的 搜索 引擎 ， 但 是 ， 用 于 计算 每 个 研究 者 的 h 指数 的 方法 
本 身 却 是 非常 简单 的 。 如 图 10. 3 所 示 ， 其 中 x 轴 和 y 轴 分 别 表示 研究 者 的 论文 排名 和 论文 
的 被 引用 次 数 ， 绘 制 y=x 的 直线 。 如 果 我 们 搜索 最 高 排名 论文 的 被 引用 次 数位 于 直线 之 
上 ， 则 它 将 是 研究 者 的 h 指数 。 如 果 h 指数 是 平方 值 ， 那 么 就 可 以 估计 出 关于 研究 者 的 引 
用 总 数 的 顺序 。 

巧合 的 是 ， 基 于 PageRank 的 关于 预测 诺 贝 尔 奖 得 主 的 文章 也 发 表 在 了 开放 获取 学 术 
期 刊 arXiv 上 。 这 篇 文章 [Maslov et al. 2009] 的 作者 将 PageRank 算法 应 用 于 自 1893 年 以 
来 出 版 的 物理 学 期 刊 上 ， 如 《物理 评论 快报 》 (Physical Review Letters) ， 并 计算 了 被 引用 
论文 的 排名 。 他 们 已 经 发 现 前 10 篇 论文 的 作者 获得 了 诺 贝 尔 奖 ,如果 这 个 计划 可 应 用 到 
更 多 新 出 版 的 论文 上 ， 那 么 未 来 的 诺 贝 尔 奖 得 主 就 将 是 可 以 预测 的 。 但 是 ， 从 这 项 研究 
看 ， 诺 贝尔 奖 获奖 后 发 表 的 论文 也 包括 在 计算 排名 内 ， 因 此 该 方案 还 需要 进一步 改进 。 


被 引用 次 数 ? 


Il 


yux 


TANDI 


123-4 5 67 8 9 Ww) 13 14 15 16 17 18 
排名 x 
10.3 排名 与 被 引用 次 数 


PS 
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10.2.4 声望 


在 社会 网 络 分 析 中 ， 一 个 参与 者 的 声望 的 概念 [Liu 2007] 可 以 通过 以 图 形 作 为 数据 
结构 来 建 模 。 文献 计量 学 采用 类 似 社交 网 络 中 对 参与 者 的 分 析 方 式 来 分 析 在 期 刊 上 发 表 的 
论文 引用 之 前 发 表 的 其 他 论文 期 刊 的 现象 。 也 就 是 说 ， 从 一 篇 论文 到 另 一 篇 论文 的 期 刊 和 
ares 于 从 一 个 节点 到 另 一 个 节点 的 节点 和 有 向 边 。 对 于 Web KUL, Web 页 和 页 
面 间 的 超 链接 类 似 地 对 应 于 节点 和 节点 到 另 一 个 节点 的 有 向 边 。 

让 我 们 考虑 其 元 素 表示 的 邻接 矩阵 两 个 节点 的 连接 。 描 述 具有 元 素 ,的 矩阵 EE 如 下 : 

e (E,) 

如 果 存 在 从 节点 i 到 j 的 有 向 边 ， 则 邻接 矩阵 中 的 ,为 1， 否 则 为 0。 在 本 书 中 ， 所 
有 元 素 都 有 一 个 非 负 值 的 矩阵 称 为 非 负 矩阵 。 一 个 所 有 元 素 都 大 于 0 的 矩阵 称 为 正和 矩阵 。 
本 节 中 我 们 只 考虑 此 类 型 的 和 矩阵。 请 注意 ， 非 负 和 矩 阵 和 正和 矩阵 是 两 个 不 同 的 概念 。 表 示 引 
用 关系 〈 见 图 10. 4a) 的 邻接 矩阵 如 图 10. 4b 所 示 。 

节点 的 声望 由 p, 表 示 。 然后 ， 声 望 p, 可 以 被 认为 是 所 有 节点 到 有 向 边 的 节点 i 的 声望 
的 总 和 。 此 外 ， 列 向 量 p 以 bp, 作为 其 组 成 部 分 。 然 后 ,使 用 转 置 矩 阵 E 的 邻接 矩 阵 E， 用 
于 计算 新 的 p (表示 为 p') 的 公式 可 描述 如 下 : 

p' —E'p 

设 初始 向 量 =(1, 1, , 1)。 如 果 上 面 的 公式 重复 应 用 ， 归 一 化 p 使 得 >p, =1, 
将 获得 p 的 固定 解 。 请 注意 ， 还 有 男 一 种 归 一 化 方法 是 用 p 除 以 具有 最 大 绝对 值 的 元 素 。 
找到 稳定 解 的 方法 称 为 窜 法 [ Anton et al. 2002] 。 稍 后 我 们 将 解释 用 于 获得 稳定 解 的 原理 。 


L=|0 0 1 
0 0 0 

2 ———— 13 
a) 引用 关系 b) 邻接 矩阵 


图 10.4 引用 关系 及 其 对 应 的 矩阵 


在 和 矩阵 的 所 有 特征 值 中 ， 具 有 最 大 绝对 值 的 特征 值 被 称 为 最 大 特征 值 。 在 这 种 情况 
F, 成 为 对 应 于 最 大 特征 值 的 特征 向 量 (在 这 种 情况 下 ) ， 绝 对 值 是 1 的 矩阵 BT 可 由 下 
式 表示 : 

° p=E'p 


10.2.5 PageRank 
网 页 也 可 以 用 类 似 论文 和 书 厌 的 有 向 图 来 建 模 。 如 果 需 要 ,还 可 以 使 用 具有 权重 的 有 
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向 图 。 这 里 ， 我 们 将 对 Larry Page 和 Sergey Brin [Liu 2007] 的 PageRank 做 出 解释 。 一 个 页 
面 的 PageRank 由 所 有 指向 该 页 面 的 PageRank 决定 的 。 令 p, 是 页 面 i 的 PageRank。 此 外 ， 
S NN 为 页 面 i 的 链接 数 。 然 后 ， 页 面 j 的 PageRank p ÆRA E 向 它 的 页 面 的 P 的 PageRank 
的 总 和 ， 权 重 为 1/N,。 

该 方案 使 用 矩阵 来 表示 。 令 五 为 邻接 和 矩阵， 如 果 存 在 从 节点 守 到 7 的 链接 ， 则 元 素 E; 
为 1， 否 则 为 0。 此 外 ,使 用 元 素 定义 以 下 邻接 矩阵。 矩阵 E 和 工 都 是 方 阵 。 


+p E) 


Wah, Kp ÆA p 为 第 ;个 元 素 的 向 量 。 如 果 上 
过 以 下 公式 计算 : 

e poLp 

计算 PageRank 的 方法 基本 上 TAA ARA RNM, 这 并 不 奇怪 ， 因 为 Page 和 其 他 
人 将 bibliometrix 视 为 PageRank 的 前 期 工作 。 通 常 ， 这 些 方案 可 归结 为 计算 下 面 方 阵 的 特 
征 值 问题 [ Watkins et al. 2002]; 

e Mv =Av 

S A 和 w 分 别 为 特征 值 和 特征 值 A 所 对 应 的 特征 向 量 。 假 设 该 矩阵 满足 某 些 条 件 ， 对 
应 于 矩阵 的 最 大 特征 值 A= 1) 的 特征 向 量 v 通 常 将 通过 以 下 称 为 宕 法 [ Anton et 
al. 2002] 的 算法 得 到 。 这 里 , vo 是 v, 的 初始 向 量 。 在 每 次 迭代 计算 中 , ov, 除 以 1 范 数 
9 ,| 以 实现 归 一 化 。e 是 预先 没 定 的 阔 值 。 

(算法 ) FAK 


l. tl; 


看 使 用 的 是 矩阵 L, Ml PageRank 将 通 


2. repeat | 

3. v, Mv, ; 

4. vw/ |v, l; 

5. tt +1; 

6. }until( || v, -v, Il, <) 

VA EAEE fib AS HE RP Pe CE AE (BS FE ET at AY DG RAS, Be M 具有 线 
性 独立 的 特征 向 量 v, ，v,，…，v,。 此 外 ,假设 在 特征 值 A 中 只 存在 一 个 最 大 特征 值 ， 则 
特征 值 A 的 顺序 如 下 : 

e JA, | >IA,l=… 三 1A,| 

Sd, Fil, 是 最 大 特征 值 及 其 所 对 应 的 特征 向 量 。 

如 果 用 Mo =Av 代替 下 面 的 最 左边 的 表达 式 ， 那 么 将 得 到 最 右边 的 结果 : 

eM vw =M(Mv) =M(Av) =A*v 

如 果 重 复 这 种 迭代 ， 通 常 将 得 到 下 式 : 

e M'v =A'v 

另外 ， 初 始 向 量 w 可 以 表示 如 下 : 

ev, =Gv, +CV, ++ CD, 

这 里 假设 cE ER, FRAC 不 等 于 0， 即 假设 w 和 症 彼 此 不 正 交 。 然 后 我 们 可 获得 以 下 
结果 : 
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® M'v, =àv, =Ai[ co, + 6,(A,/A,)'v, + + 6, (A,/A,) w, ] 

这 里 如 果 考 虑 Mv /A1， 则 随 着 i 趋向 于 无 穷 ， 特 征 值 的 绝对 值 将 收敛 到 cw WR 
需要 的 话 ， 通 过 将 它 除 以 向 量 的 范 数 或 该 矢量 中 具有 最 大 绝对 值 的 分 量 来 归 一 化 。 因 此 ， 
可 以 发 现 ， 对 应 于 最 大 特征 值 的 特征 向 量 可 以 通过 和 窜 法 找到 。 

让 我 们 考虑 将 此 方法 应 用 于 PageRank 的 计算 。 在 这 种 情况 下 ， 考 察 由 网 页 组 成 的 图 
形 是 否 满足 条 件 ， 验 证 此 算法 的 正确 性 可 以 通过 上 述 知 法 找到 特征 向 量 。 

如 果 表 示 图 的 方 阵 M 是 强 连 通 和 非 周期 性 的 ， 则 根据 上 述 公 式 ， 方 阵 M 只 有 最 大 特 
征 值 ， 并 且 和 窜 法 中 的 向 量 收敛 到 最 大 特征 值 所 对 应 的 特征 向 量 ( Perron Frobenius 定理 
[ Knop 2008] )。 这 里 给 出 图 的 强 连 通 部 分 和 周期 性 的 定义 如 下 .: 

(定义 ) 图 的 强 连通 部 分 

强 连 接 图 是 一 个 有 向 图 ， 其 任意 两 个 节点 间 均 存在 双向 路 径 。 一 个 有 向 图 的 最 大 强 连 
通 子 图 被 称 为 原 图 的 强 连通 部 分 。 

(定义 ) 非 周 期 性 图 

如 果 图 中 某 个 节点 具有 长 度 为 1 WAW, 或 者 包含 该 节点 的 所 有 闭合 路 径 的 长 度 的 最 
大 共同 值 是 1， 则 该 节点 是 非 周期 性 的 。 如 果 节 点 的 周期 大 于 1， 则 节点 是 周期 性 的 。 此 
外 ， 如 果 图 的 所 有 节点 都 是 非 周 期 性 的 ， 则 整个 图 则 也 是 非 周 期 性 的 。 

毕竟 有 必要 确保 Web 图 是 强 连 通 和 非 周期 的 。 从 这 个 观点 出 发 ， 可 以 考虑 将 方 阵 M 
设置 为 来 验证 上 述 算法 的 正确 性 。 然 而 ， 整 个 Web 图 表 并 不 是 强 连接 的 。 因 此 ， 不 能 
保证 PageRanks 总 是 可 以 计算 的 。 那 么 ， 应 该 怎么 办 呢 ? 下 面 我 们 会 给 出 答案 。 

这 里 ， 改 变 PageRank 的 视图 。 首 先 ， 假设 用 户 根 据 超 链接 随机 变换 页 面 。 向量 p 中 
的 每 个 元 素 表 示 用 户 停留 在 与 该 元 素 相对 应 的 页 面 中 的 概率 。 可 以 认为 LL 是 转移 矩阵 。 
这 个 关于 用 户 行为 的 模型 被 称 为 简单 冲浪 模型 。 然 而 ， 如 上 所 述 ， 它 仍然 不 能 保证 特征 向 
量 可 以 通过 窜 法 获得 。 

现在 这 个 简单 的 冲浪 模型 将 通过 引入 一 定 的 扩展 概率 d (0.1 和 0.2 之 间 ) 来 确定 。 
假设 Web 用 户 接受 下 列 操作 之 一 : 

1. 用 户 从 当前 页 随机 跳 转 到 任意 一 个 网 页 上 的 概率 为 d。 

2. 用 户 离开 当前 页 面 以 概率 (1 - d) 随机 访问 超 链接 中 的 任何 目的 地 。 

当 用 户 可 以 随意 跳 转 到 任意 网 页 上 时 ， 这 种 修正 的 模型 称 为 扩展 的 冲浪 模型 。 用 户 将 
停留 在 Web 的 每 个 页 面 上 的 概率 可 由 以 下 公式 计算 : 

“pd p+(1-ak'p=d LU 11) #1 -DEP 
其 中 , N 为 Web 上 的 页 面 总 数 。 

特征 值 问 题 中 的 矩阵 M 的 定义 如 下 : 
w)ta oe 
KP, EE M 的 每 个 列 中 的 所 有 元 素 的 和 都 必须 等 于 1， 因 为 它们 代表 的 是 概率 。 因 此 ， 
WREE L 的 某 行 有 全 零 项 ， 对 应 于 该 行 的 节点 称 为 悬挂 节点 。 所 有 这 样 的 基 挂 节点 的 元 
素 被 设置 为 1/V。 这 种 调整 被 称 为 随机 性 调整 。 

图 10. Sa 中 描述 的 页 面 所 对 应 的 邻接 矩阵 如 图 10. Sb 所 示 。 进 一 步 地 ，PageRank MW) #E 


° m=a( 
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阵 公 式 如 图 10. 5c 所 示 。 这 样 构造 的 矩阵 M 是 正 的 方 阵 且 该 图 满足 强 连通 性 和 非 周期 性 条 
件 。 

首先 ， 因 为 图 上 的 每 个 页 面 都 可 以 视 为 通过 动作 (1) 直接 来 自任 一 页 ， 所 以 该 图 是 
强 连 通 的 。 此 外 ， 在 强 连 通 图 中 ， 每 个 节点 的 周期 都 是 相同 的 ， 均 等 于 整个 图 自身 的 周 
期 。 又 因为 每 个 三 点 还 有 一 个 “ 自 环 ”链接 ， 所 以 整个 图 是 一 个 循环 。 
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图 10.5 PageRank 


因此 ， 这 样 的 特征 向 量 ( 即 PageRanks) 可 以 通过 震 法 得 到 。 这 里 ， 令 初始 向 量 访 为 
(1AN，1AN，…，1AN) "。 这 个 向 量 和 所 有 元 素 都 是 正 值 的 正 向 量 不 正 交 。 尽 量 我 们 知道 
PageRank 适用 于 搜索 引擎 (例如 谷歌 )， 它 不 同 于 HITS， 且 不 依赖 于 搜索 结果 ， 这 些 我 们 
将 在 稍 后 说 明 。 出 于 这 个 原因 ， 基 于 PageRank 的 搜索 引擎 可 能 会 返回 与 搜索 字 词 的 关联 
性 较 低 的 结果 。 相 反 ， 由 于 PageRank 的 全 局 特性 可 知 ，PageRank 能 够 有 效 对 抗 无 用 推送 
(比如 故意 增加 超 链 接 ) ， 这 也 是 PageRank 的 优点 之 一 。 

接 下 来 ,将 考虑 军法 的 计算 开销 。 在 一 次 重复 计算 中 ,，N xN 矩阵 和 维 向 量 的 乘积 
需要 0(N?) 的 成 本 。 因 此 , 令 R 为 直到 收敛 所 需 重复 的 次 数 ， 则 整体 计算 成 本 为 O(N? x 
R)。 虽 然 最 大 重复 次 数 不 能 精确 地 确定 ,但 据 报 道 PageRank 实际 上 可 以 经 过 大 约 100 次 
FEARS, Lab, WRR Web 图 是 稀 玖 的 ， 则 可 以 使 用 称 为 邻接 列表 的 数据 结构 
减少 先前 的 矩阵 和 向 量 与 0(N) 的 乘积 的 成 本 。 在 这 种 情况 下 ， 整 体 计算 成 本 为 O(N x 
RR) 。 如 果 网 页 的 总 数 NN 被 设 为 5x10”*， 那么 这 种 改进 的 成 效 将 会 是 显著 的 。 


10.2.6 HITS 


超 链接 诱导 的 主题 搜索 (Hyperlink Induced Topic Search, HITS) [Liu 2007] 采用 类 似 
PageRank 的 方式 来 确定 Web 页 面 的 排名 。 首 先 ， 介 绍 HITS 和 PageRank 的 差异 。 如 前 所 
XR, PageRank 是 提前 为 整个 网 页 的 每 一 页 面 计 算 的 ， 是 不 依赖 于 单个 查询 的 。 另 一 方面 ， 
HITS 原则 上 是 在 每 次 网 页 搜索 系统 为 响应 用 户 的 网 络 搜索 而 返回 搜索 结果 时 计算 的 ， 是 
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依赖 于 查询 的 。 在 现实 中 ， 搜 索 结 果 在 它们 被 扩展 后 使 用 : 

(定义 ) 根 页 面 集 、 扩 展 页 面 集 和 基本 页 面 集 

e Sr 是 被 搜索 结果 包含 的 页 面 。 页 面 7 的 集合 称 为 根 页 面 集 R。 

。 沿 着 单个 路 径 进 入 或 离开 > 的 一 组 页 面 ( 即 ， 距 离 为 1) ， 这 个 页 面 集 五 称 为 扩展 
页 面 集 。 

© 根 页 面 集 尺 和 扩展 页 面 集 五 合并 得 到 的 集合 称 为 基本 页 面 集 B, 

接 下 来 ， 我 们 将 介绍 页 面 的 权威 值 和 中 心 值 的 概念 。 如 果 页 面 被 许多 页 面 引 用 ( 即 链 
接 ) ， 则 可 以 认为 这 样 的 页 面 有 一 定 的 权威 值 。 某 一 页 面 被 重要 页 面 引 用 时 增加 的 权威 值 
大 于 被 不 太 重 要 页 面 引 用 时 增加 的 权威 值 。 引 用 页 面 的 重要 性 可 以 通过 中 心 值 来 评估 。 引 
用 很 多 权威 性 页 面 的 页 面 是 有 价值 的 中 心 。 简 而 言 之 ， 页 面 的 权威 值 可 由 该 页 面 所 引用 页 
面 的 中 心 值 之 和 确定 。 同 样 地 ， 页 面 的 中 心 值 由 引用 该 页 面 的 所 有 页 面 的 权威 值 之 和 
确定 。 

Kia, © BARAT, IF a, 和 ,分 别 为 网 页 i 的 权威 值 和 中 心 值 。 此 外 ， 通 过 使 
用 邻接 矩阵 EE， 权威 向 量 a 和 中 心 向 量 有 hh 可 分 别 表示 如 下 : 

ea=Eh 

e h=Ea 

WAR FR ARR , MAA EAA Fe 

(算法 ) 计算 网 页 的 中 心 值 和 权威 值 。 


l. tl; 


2. repeat | 
3. a,E'h,_,; 
4. h,—Ea,_,; 
5. a,—a/ |a, lli; 

6. h—h,/ |h, || ,; 

7. tet +1; 

8. | until( || a,-a,_, ||, <eand|| k,-h, ||, <6) 

这 里 , Sa, =h, =(1/N,1/N,:,1/N)", N 为 包含 基本 页 面 集 的 页 面 总 数 。 图 10. 6a 
中 显示 的 扩展 页 面 集 所 对 应 的 邻接 矩阵 如 图 10. 6b 所 示 。 基 于 该 算法 的 a 和 的 值 如 
图 10. 6c 所 示 。 现 在 所 需要 做 的 只 是 重复 此 过 程 。 

ea=E'Ea 

eh=EE'h 

这 表明 权威 向 量 a 和 中 心 向 量 h 分别 是 矩阵 E'E 和 EE (这 里 人 =1) 的 特征 向 量 。 

对 此 我 们 需要 做 几 点 解释 。 与 PageRank 不 同 , 在 HITS 中 不 能 保证 只 有 一 个 最 大 的 特 
征 值 。 因 此 ， 对 应 的 特征 向 量 也 不 一 定 是 唯一 的 。 此 外 ， 特 征 向 量 g 的 收敛 值 取决 于 v 的 
初始 值 。 

HITS 的 一 个 特点 是 ， 它 能 够 提供 两 种 不 同 的 排名 (中心 和 权威 )， 用 户 可 以 在 二 者 之 
间 选 择 。 然 而 ，HITS 的 另 一 个 特性 就 是 ， 其 结果 很 大 程度 上 依赖 于 搜索 查询 的 结果 。 使 
用 扩展 页 面 集 的 原因 是 通过 覆盖 尽 可 能 多 的 可 能 相关 的 页 面 来 提高 查 全 率 。 但 是 ， 从 另 一 
方面 来 说 ， 这 也 将 降低 准确 率 。 
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图 10.6 HITS 


此 外 ,一 旦 一 个 包含 很 多 主题 的 门户 网 站 (如 雅虎 ) 被 包括 在 基本 页 面 集合 中 ， 
HITS 就 会 对 包含 了 与 该 门户 页 面 的 主题 完全 不 相关 的 页 面 给 出 更 高 的 排名 。 而 且 ，HITS 
还 会 受到 SPAM 行为 的 影响 ， 例 如 故意 附加 假 链接 。 

整个 算法 的 计算 开销 是 O(N x 重复 数 ) W PageRank, YF Web 1 H LER MBE 
实 ， 它 将 减少 到 0(N x 重复 数 )。 此 外 ， 因 为 取决 于 查询 ， 所 以 与 PageRank 相 比 ，HITS 
中 的 NN 是 相当 小 的 。 
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S11 Fi Web 内 容 挖掘 


本 章 将 介绍 搜索 引擎 、 信 息 检 索 、 网 页 分 类 、 网 页 聚 类 和 微 博 总 结 等 Web 内 容 挖掘 
技术 。 


11.1 搜索 引擎 


为 了 搜索 网 页 ， 用 户 通常 要 借助 于 网 络 搜索 引 敬 。 粗 略 地 说 ， 网 络 搜索 引擎 一 侧 的 任 
务 可 分 为 以 下 过 程 : 

。 网 页 抓 取 

。 网 页 内 容 分 析 和 链接 分 析 

。 索引 网 页 

。 网 页 排名 

。 搜索 和 查询 网 页 处 理 

在 详细 解释 这 些 之 前 ， 让 我 们 先 简 要 回顾 一 个 典型 搜索 过 程 的 流程 〈 见 图 11.1) 。 


ee 


Ne ee ee e oe = = = 


图 11.1 搜索 引擎 的 体系 结构 


通常 ， 搜 索引 擎 在 用 户 做 查询 之 前 有 一 些 任务 要 完成 。 首 先 ， 搜 索引 擎 从 整个 Web 
收集 页 面 ， 将 它们 存储 在 称 为 存储 库 的 数据 库 中 。 此 任务 称 为 网 页 抓 取 。 更 具体 地 ， 抓 取 
程序 遵循 来 自 种 子 页 面 的 链接 ， 并 访问 所 有 链接 的 特殊 的 页 面 和 收集 页 面 的 内 容 。 通 过 将 
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访问 过 的 页 面 设置 为 新 的 原始 页 面 继续 抓 取 过 程 。 因 此 ， 抓 取 通 常 以 宽度 优先 和 并 行 方 
式 ， 从 两 个 或 更 多 的 种 子 页 开始 来 访问 页 面 。 抓 取 是 定期 执行 的 。 一 些 搜索 引擎 优先 寻找 
频繁 更 新 或 流行 的 网 页 。 

接 下 来 ， 搜 索引 擎 会 分 析 存 储 库 中 所 存储 的 页 面 ， 并 提取 每 个 页 面 的 统一 资源 定位 符 
(Uniform Resource Locator，URL) 和 标题 。 此 外 ， 可 以 用 作 搜 索 项 的 词 是 从 页 面 的 主要 部 
分 提取 的 。 这 个 任务 称 为 内 容 分 析 。 网 页 和 搜索 项 都 附 有 识别 标志 。 

然后 ， 搜 索引 擎 将 会 分 析 页 面 的 链接 并 提取 销 点 文本 〈( 即 链接 文本 ) 。 此 任务 称 为 链 
接 分 析 。 通 过 对 应 的 锚 文本 ， 一 条 链接 被 存储 为 联系 原始 页 面 和 目的 页 面 的 一 对 标识 符 。 

接着 ， 搜 索引 擎 提供 索引 页 面 与 所 有 搜索 字 词 之 间 的 关系 (更 准确 地 说 ， 标 识 符 ) ， 
以 及 页 面 内 项 目的 位 置 。 搜 索引 擎 创建 另 一 个 索引 ( 即 ， 反 转 索 引 ) ， 表 示 搜 索 词 之 间 的 
对 应 关系 和 包含 该 术语 的 所 有 页 面 ， 以 及 位 置 ( 即 ， 标 识 符 ) 。 在 这 些 索引 的 帮助 下 ， 搜 
索引 擎 可 以 找到 包含 指定 搜索 词 的 所 有 页 面 和 被 特定 页 面 所 包含 的 搜索 字 词 。 创 建 此 类 索 
引 的 任务 被 统称 为 索引 。 

此 外 ， 基 于 链接 分 析 的 结果 ， 一 些 搜索 引擎 会 采用 特定 方法 (PU, Google 的 PageR- 

ank) 来 计算 那些 表示 所 抓 取 页 面 在 统计 意义 上 的 重要 性 排名 〈 即 前 搜索 ) 。 其 他 搜索 引 
擎 也 使 用 类 似 的 方法 〈 例 如 ，HITS) 动态 地 计算 页 面 排名 ， 不 过 不 是 基于 前 搜索 的 分 析 ， 
而 是 基于 对 搜索 结果 的 链接 分 析 。 一 般 来 说 ， 这 个 任务 称 为 排名 。 
使 用 先前 描述 的 索引 ， 搜 索引 擎 会 收集 包含 了 用 户 在 搜索 时 指定 搜索 项 的 页 面 。 当 两 
个 或 更 多 搜索 词 之 间 用 空格 指定 时 ， 一 些 搜 索引 擎 (例如 ，Google) 计算 页 面 集 的 集合 积 
(set - product) 为 每 个 搜索 项 获得 的 最 终结 果 。 其 他 搜索 引擎 计算 集合 并 (set - union) 
而 不 是 集合 积 。 此 外 ， 如 果 有 必要 ， 搜 索引 擎 会 计算 属于 所 获得 的 集合 的 每 个 页 面 的 排名 
页 面 ， 并 与 先前 计算 的 页 面 的 排名 合成 。 检 索 的 网 页 按照 降序 排名 。 指 定数 字 (通常 为 
10 或 20 个 ) 的 网 页 ( 即 网 址 ) 被 归纳 成 具有 网 页 片段 的 一 个 搜索 引擎 结果 页 (Search 
Engine Result Page，SERP) ， 用 户 能 够 逐一 查看 这 些 网 页 。 

要 计算 当前 页 面 的 最 后 排名 ， 搜 索引 擎 不 仅 要 考虑 搜索 字 词 在 网 页 中 显示 的 频率 
( 即 ， 搜 索 项 的 频率 ) ， 而 且 还 要 考虑 搜索 项 出 现 的 地 方 ( 即 搜索 字 词 的 位 置 )。 例 如 ， 就 
位 置 而 言 ， 标 题 和 锚 点 文本 比 页 面 主体 更 重要 。 此 任务 被 称 为 查询 处 理 。 

在 搜索 引擎 的 任务 中 ， 抓 取 、 索 引 和 排名 将 在 下 面 详细 解释 。 


11.1.1 网 页 抓 取 


总 而 言 之 ， 网 页 抓 取 需要 它 的 URL (统一 资源 定位 符 ) 、 主 机 名 和 文件 的 路 径 。 首 
先 ， 做 一 个 非常 简短 的 解释 ( 见 图 11.2)。 
1. 将 网 站 的 URL 作为 种 子 插入 到 数据 结构 中 。 
2. 重复 以 下 步 又， 直到 无 法 找到 更 多 的 网 址 ( 即 池 是 空 的 ) | 
3. 在 其 前 端 删 除 池 中 的 URL。 
4. 访问 URL 所 指向 的 页 面 。 
5 
6 
| 


. 将 新 收集 的 URL 插入 其 后 端的 池 中 。 
. 分 别 从 访问 页 、 存 储 前 的 页 面 存储 库 和 存储 后 的 链接 存储 库 提取 网 页 信息 和 链接 
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De re ene ee 


和 


存储 库 


图 11.2 抓 取 程 序 


执行 这 样 一 系列 过 程 的 程序 一 般 称 为 网 络 爬 虫 或 网 络 蜘蛛 (ERER) 。 在 实 
际 的 抓 取 中 ， 两 个 或 两 个 以 上 的 怜 行 器 合作 进行 分 布 式 处 理 。 些 外， 如果 它 被 其 他 网 站 和 
网 页 通过 程序 注册 到 搜索 引擎 的 网 站 管理 员 所 拒绝 ， 也 就 是 说 ， 如 果 存 在 一 个 robots. txt 
文件 或 meta 标签 的 程序 排除 协议 [robotstxt 2014] ， 那 么 在 这 种 情况 下 不 应 该 继续 进行 
抓 取 。 


11.1.2 索引 网 页 


(1) 基本 概念 

用 户 利用 网 络 搜索 引擎 ， 通 过 指定 搜索 网 页 条 款 ， 然 后 搜索 引擎 必须 有 效 地 发 现 网 页 
中 含有 指定 搜索 条 件 的 项 目 。 这 种 机 制 就 是 索引 。 网 页 由 息 行 器 下 载 并 储存 在 网 页 存储 库 
中 并 在 搜索 时 向 用 户 提 交 。 

搜索 术语 也 称 为 索引 术语 ， 因 为 它 也 用 作 索 引 的 关键 项 。 首 先 ， 出 现在 网 页 中 的 索引 
术语 被 提取 。 基 本 单位 是 一 个 单词 或 术语 。 如 果 页 面 用 英语 书写 ， 单词 通常 由 空格 分 隔 ， 
而 单词 的 检测 则 是 相当 简洁 的 。 那 么 ， 日 语 又 如 何 ? 因为 通常 日 语 中 的 单词 或 句子 之 间 是 
不 会 搬入 空格 的 ， 所 以 单词 检测 不 是 那么 容易 。 因 此 ， 需 要 所 谓 的 形态 分 析 。 一 般 来 说 ， 
形态 分 析 使 用 字典 来 确定 词性 的 组 成 和 词 的 语调 。 很 多 被 称 为 形态 分 析 器 的 形态 分 析 工 具 
已 经 可 以 作为 免费 软件 来 使 用 ， 如 为 日 语 设计 的 Chasen。 一 旦 词 通过 形态 分 析 从 页 面 中 提 
取出 来 ， 通 过 使 用 一 些 专用 的 访问 结构 (例如 ，B + 树 或 哈 希 表 ) ， 那 么 就 有 必要 把 词 作 
为 关键 词 进 行 索引 以 用 于 搜索 文档 。 需 要 注意 的 是 形态 分 析 需 要 以 词 库 为 基础 。 

不 使 用 形态 分 析 的 方法 包括 NN 元 索引 。 通 常 ，N 是 指 从 文档 或 页 面 一 次 提取 的 字符 串 
(日 语 形式 ) 的 长 度 或 单词 (英语 形式 ) 的 数量 。 如 果 N 是 1、2 或 3， 则 分 别称 为 一 元 、 
二 元 或 三 元 。 

例如 ， 以 “For example, if this sentence is analyzed” 这 人 句 为 例 作 二 元 (bigram) 分 析 ， 
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它 会 被 扩展 为 成 为 “For example” “example if” “if this”, 等 等 。 所 用 数量 越 趋 近 于 W， 越 
容易 发 现 长 的 项 。 如 果 基 于 字符 使 用 w 阶 索引 ， 那 就 没 必要 准备 字典 了 。 假 如 C 是 特征 字 
符 的 数量 ， 然 后 ， 索 引 的 不 同 字符 串 的 数量 将 变 为 0 (C*)。 在 日 语 的 情况 下 ， 因 为 C 的 
数量 级 大 约 为 10 ， 所 以 大 量 的 数 不 能 取 为 N。 

请 注意 ， 一 个 N 阶 索引 和 基于 词 的 索引 形态 分 析 不 一 定 是 排他 性 的 。 也 就 是 说 ， 在 创 
建 日 文 的 Y 元 索引 时 ， 也 有 可 能 用 基于 词 的 形态 分 析 来 代替 字符 。 为 了 简单 起 见 ， 下 面 将 
解释 以 字符 为 基础 的 元 索引 。 然 而 ， 如 果 字 符 被 词 整体 代替 ， 则 流程 基本 相同 。 

网 页 内 容 分 析 与 信息 检索 技术 有 许多 共同 之 处 。 以 下 部 分 将 解释 信息 检索 技术 。 

(2) 存储 库 和 索引 的 结构 

文档 标识 符 (DocID) 和 字符 串 标 识 符 (CharStrID) 被 分 别 赋 给 页 面 文档 (URL) 和 
字符 串 〈 即 元 ) 。 这 种 标识 符 被 用 于 散 列 或 关键 排序 。 首 先 ， 一 个 有 序 或 者 无 序 的 词 库 
(数据 结构 搜索 ) 建立 在 大 量 的 文件 集合 上 。 其 次 ， 该 字符 串 在 文档 中 的 位 置 、 字 符 的 类 
型 和 其 他 信息 都 被 附加 到 字符 串 上 。 类 型 包括 : URL、 标 题 、 锚 ( 即 链接 中 的 文本 )、 元 
标签 〈 关 于 页 或 元 数据 ) ， 以 及 指示 字符 串 出 现 的 地 方 。 这 个 字符 串 的 类 型 是 必要 的 ， 因 
为 即使 相同 的 字符 串 ， 其 意义 也 会 由 于 它 所 出 现 的 位 置 不 同 而 发 生变 化 。 字 符 的 情况 
CHM, ERF) 和 字体 的 大 小 都 被 记录 为 附加 信息 。 此 外 ， 如 果 字 符 串 有 一 个 锚 ， 包 含 销 
的 原始 页 面 的 文档 识别 器 ( 即 锚 文档 识别 器 ) 也 会 作为 附加 信息 被 记录 下 来 。 

在 这 里 ， 只 有 标题 和 锚 被 认为 是 类 型 简化 的 要 素 。 因 此 ,在 存储 库 中 ， 页 面包 含 标题 
(title) 和 主要 部 分 (body)。 主 要 部 分 只 包括 销 (anchor) 文本 和 相应 的 链接 ( 见 图 
11.3a) 。 链 接 包括 原始 页 面 「 即 文档 标识 符 (DocID) ] 、 目 的 地 页 面 ( 即 文档 标识 符 ) 和 
鳃 文本 ( 见 图 11. 3b) 。 此 外 ， 既 不 考虑 字符 大 小 也 不 考虑 字体 大 小 。 


DocID URL 
<titile>title</titile> 


<body> 


<a href=“URL”>anchor</a> 


</body> 
a) W hi b) 链接 


图 11.3 页 面 和 链接 


字符 串 在 文档 中 的 位 置 、 类 型 和 附加 信息 被 统称 为 命中 ( hit) 。 通 常 ， 根 据 使 用 目的 
和 指数 ， 不 限于 V 元 索引 ， 被 分 为 两 种 类 型 : 前 向 索引 和 反 向 索引 。 

它们 有 以 下 单独 的 特点 : 

。 前 向 索引 : 文档 标识 符 - > (字符 串 标识 符 + 命 中 ) * 
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e RARI: 字符 串 标识 符 - > (文档 标识 符 + 命中 ) * 

通常 ， 两 个 或 多 个 字符 串 〈 即 字符 串 标 识 符 ) 可 以 由 一 个 文档 标识 符 表 示 ， 并 且 相 
同 的 字符 串 可 能 出 现 两 次 或 多 次 ， 因 此 会 发 现 一 个 或 多 个 “ (字符 串 标 识 符 + 命中 )”。 对 
于 某 个 字符 串 标 识 符 ， 可 以 找到 一 个 或 多 个 类 似 的 “(文档 标识 符 + 命中 ) ”， 一 般 会 用 
“x* ”的 格式 表示 这 种 情况 。“ (字符 串 标识 符 + 命中 )” 和 “ (文档 标识 符 + 命中 ) ”在 这 
里 统称 为 posting。 

在 许多 情况 下 ， 出 现在 一 个 页 面 中 的 锚 链 接 文本 描述 的 是 由 源 页 引用 的 页 。 所 以 锚 文 
本 也 可 以 认为 是 此 类 页 面 的 索引 术语 。 这 种 技术 叫 作 铺 传播 ， 这 是 特别 有 效 的 索引 页 ， 特 
别 是 对 于 没有 文本 ， 只 有 图 的 情况 。 

(3) 创建 索引 

我 们 先 描 述 一 下 创建 索引 的 算法 。 通 常 ， 一 个 长 度 为 N 的 字符 串 的 提取 是 通过 一 次 移 
动 一 个 字符 来 完成 的 ， 一 个 索引 是 通过 使 用 这 样 的 字符 串 来 创建 的 。 假 设 多 个 文档 中 存在 
N 个 字符 。 

该 算法 从 当前 位 置 提取 WN 个 字符 ， 并 对 由 字符 串 标 识 符 、 文 档 标 识 符 、 文 档 中 的 位 
置 、 类 型 和 附加 信息 组 成 的 内 容 进 行 记录 。 在 锚 类 型 的 情况 下 ， 记 录 被 复制 ， 其 文档 标识 
符 将 被 锚 链接 的 目的 页 面 的 内 容 改 变 ， 以 便 传 播 锚 信 息 到 页 面 。 

让 我 们 使 用 RDBMS 中 的 表 创 建 索 引 。 例 如 ， 令 文档 标识 符 (DocID) 为 B + 树 表 中 
的 主键 (primary key) ， 则 表 可 以 被 用 作文 档 的 前 向 索引 ( 见 图 11.4a) 。 如 果 另 一 个 B+ 
树 索引 通过 使 用 字符 串 标 识 符 (CharStrID) 作为 次 键 (secondary key) 来 创建 ， 那 么 它 将 
是 文档 的 反 向 索引 (JILA 11. 4b) 。 请 注意 有 些 应 用 程序 不 仅 需 要 压缩 页 面 数据 ， 还 需要 
压缩 索引 本 身 以 减少 存储 大 小 。 


a) 前 向 索引 


b) 后 向 索引 
图 11.4 索引 


11.1.3 网 页 排名 


网 页 的 排名 方法 可 以 分 类 如 下 : 

。 (静态 排名 ) 提前 计算 所 有 已 抓 取 页 面 的 排名 。 

。 (动态 排名 ) 通过 计算 所 有 搜索 过 的 页 面 的 排名 ， 考 虑 与 搜索 项 的 相似 性 。 

例如 ， 静 态 排名 的 代表 之 一 是 PageRank ， 动 态 排名 的 代表 包括 HITS 和 信息 检索 中 所 
使 用 的 向 量 空间 模型 。 向 量 空间 模型 建立 在 文档 包含 的 特征 向 量 和 用 户 指 定 的 搜索 之 间 的 
相似 性 〈 如 余弦 测度 ) 上 的 。 在 现实 中 ， 上 述 两 种 排名 方法 相 结合 ， 以 确定 检索 结果 页 
面 的 最 后 排名 。 
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11.2 信息 检索 技术 


为 了 分 析 已 经 抓 取 的 页 面 内 容 ， 使 用 信息 检索 (Information Retrieval, IR) 技术 。 不 
同 于 其 他 标签 页 ， 字 符 串 ( 等同 于 普通 文本 文件 ) 是 首先 按 下 列 程序 进行 分 析 的 。 

。 形态 分 析 : 将 文本 分 割 成 一 系列 单词 并 确定 单词 的 组 成 对 日 语 来 说 ， 尤 其 需要 这 
样 的 分 割 。 

。 删除 不 必要 的 单词 : 从 词语 集合 中 删除 不 必要 的 单词 〈 即 停止 词 ) 。 

© 词 干 : 去 掉 单词 的 部 分 项 使 其 标准 化 。 

以 这 种 方式 可 以 提取 表征 文本 文档 的 词语 ， 所 以 这 样 的 词 被 称 为 文档 的 特征 词 。 此 
外 ， 因 为 它们 在 索引 中 又 被 用 于 检索 文档 ， 所 以 也 称 为 索引 术语 。 


11.2.1 特征 


接 下 来 ， 考 虑 加 权 特 征 项 。 
通常 ， 文 档 包含 的 特征 项 t 的 权重 d;D, 可 通过 以 下 方式 来 确定 。 

© d,=L, G/N, 
其 中 ， 每 个 因子 的 表示 如 下 。 

e L: 本 体 权重 。 它 基于 特征 项 i 在 文档 D ,中 的 频率 。 

e G: 全 局 权重 。 它 基于 特征 项 1 在 整个 文档 中 的 分 布 。 

e N: 归 一 化 因子 。 它 通常 是 文档 D 的 长 度 。 
此 外 ， 还 需要 介绍 TE、DF 和 IDF 的 概念 。 

。 TF; 术语 频率 (term frequency)。 它 是 文档 D 中 特征 项 # 的 频率 。 

© DF: 文档 频率 (document frequency)。 它 是 文档 中 包含 特征 项 1 的 文档 数 除 以 所 有 
文档 的 数量 。 

e IDF: 反 向 文档 频率 (inverse document frequency) 。 它 对 应 于 DF 的 倒数 。 然 而 ， 它 
不 一 定 是 精确 的 互 着 。 例 如 ，DF 加 1 的 对 数 被 用 作 IDF。 

让 我 们 假设 不 考虑 归 一 化 (BN, EEN, = 1) 并 令 TF 和 IDF 分 别 为 L; 和 G,。 然 后 ， 
特征 的 权重 在 这 种 情况 下 等 于 TF 和 IDF 的 乘积 如 下 : 

。d =TFxIDF 

以 这 种 方式 定义 的 权重 通常 简称 为 TFIDF。 对 于 各 因子 (L) 结果 会 有 所 不 同 ， 关 
于 该 变化 的 详细 描述 请 参考 文本 挖掘 方面 的 参考 书 。 


11.2.2 ”向量 空间 模型 


接 下 来 ,将 讲解 基于 向 量 空间 模型 的 查询 处 理 。 下 面 的 矩阵 D 就 是 其 中 的 第 一 个 。 

e [d,] 

D 称 为 特征 项 - SORE, D 的 每 一 列 co MON CR I et 4， 因 为 它 表 示 一 个 文档 的 信 
息 。 类 似 地 , D 的 每 一 行 7, 称 为 特征 项 向 量 ， 因 为 它 表示 一 个 特征 项 的 信息 。 

例如 ， 如 图 11.5 所 示 的 特征 项 -文档 和 矩阵， 文档 1 和 文档 3 两 者 都 包含 特征 词 “ 香 
ERA”. OC 4 包含 特征 词 “ 和 白兰 地 ”和 “威士忌 ”。 
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图 11.5 特征 项 - 文档 矩阵 


男 一 方面 ， 查 询 可 以 视 为 只 包含 搜索 项 的 虚拟 文档 。 因 此 ， 它 也 可 以 由 以 下 向 量 g 来 
表示 ,gq 中 的 每 个 元 素 是 特征 项 i, 出 现在 查询 中 的 权重 g，( 即 TFIDF): 

® (qi, hs =, qa)” 

查询 的 结果 是 一 组 类 似 于 查询 的 文档 。 文 档 和 查询 的 相似 性 非常 
文档 向 量 和 查询 向 量 的 内 积 的 余弦 测度 表示 的 。 


e 内 积 : d, -q = > 4,9; 
i=] 


imh 


ER, PM, CH 


e REWE: [人 

以 这 种 方式 计算 的 相似 性 被 设置 为 页 面 的 排名 。 此 外 ， 如 果 结 果 中 的 每 个 页 面 都 有 可 
用 的 排名 ， 无 论 它 是 静态 的 还 是 动态 的 ， 这 样 的 排名 和 相似 性 都 会 被 组 合 以 产生 最 终 排 
名。 文档 将 按照 降序 排列 ， 并 作为 结果 呈现 给 用 户 。 


11.2.3 查询 结果 的 准确 性 
接 下 来 ， 将 介绍 文档 查询 的 相关 性 概念 。 相 关 性 信息 作为 整个 文档 集 的 子 集 ， 可 以 决 
定 查询 的 正确 答案 。 每 个 文档 的 相关 性 查询 通常 可 由 手动 方法 确定 。 也 就 是 说 ， 如 果 给 出 
查询 ， 就 能 通过 使 用 相关 性 信息 获得 一 组 正确 的 文档 。 评 估 信 息 检 索 系统 的 性 能 可 以 通过 
使 用 以 下 两 个 测度 。 
(定义 ) #4 
。 关 全 -| 结果 中 的 正确 文档 | 
| 整个 集合 中 正确 的 文档 | 
(定义 ) 查 准 
、 ”| 结果 中 的 正确 文档 
e ani =- oe 
图 11.6 显示 了 正确 文档 集 和 结果 文档 集 之 间 的 关系 。 一 般 来 说 在 查 全 与 查 准 之 间 有 
个 折 中 。 考 虑 这 两 项 指标 的 下 测度 如 下 : 
(定义 ) 下 测度 


© F ie = 


2 


1 
tea ANE 
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整个 文档 集 
Ea 结 
文档 集 文档 集 
© © e ô 
@ 'e E ® 
© 
o \® @ 
‘@ 
@ $ @ 


11.2.4 其 他 问题 


下 面 将 解释 关于 信息 检索 技术 的 一 些 其 他 问题 。 

(a) 相关 性 反馈 

信息 检索 本 质 上 是 交互 式 的 。 可 以 修改 查询 本 身 ， 以 便 更 好 地 满足 用 户 的 需求 。 这 称 
为 相关 性 反馈 ([Liu 2007] 等 )。 因 此 ， 用 户 将 由 信息 检索 系统 返回 的 结果 作为 文档 集 ， 
并 将 其 分 为 两 组 : 相关 文件 (R) 和 不 相关 文件 (IR) 。 然 后 ， 系 统 通过 使 用 特征 向 量 的 
平均 值 来 修改 查询 (q) 以 产生 新 查询 (9 ) 。 之 后 ， 系 统 再 执行 新 的 查询 以 便 返 回 新 的 
结果 。 用 户 则 重复 此 过 程 直 到 获得 满意 的 结 

Rocchio 算法 如 下 所 示 : 

(算法 ) Rocchio 算法 

ta = ott TRAI RA 
其 中 , a, BA y 是 正 的 常数 并 且 由 搜索 方法 确定 。 相 关 性 反馈 改进 了 查 全 和 查 准 。 

(b) 签名 

签名 [Han et al. 2001] 也 用 于 信息 检索 中 。 例 如 ， 一 个 单词 的 签名 是 以 散 列 的 结果 
所 表示 的 一 个 位 串 。 在 另 一 方面 ， 文 档 的 签名 则 是 由 文档 中 所 包含 的 单词 签名 的 逻辑 和 所 
表示 的 。 查 询 是 由 包含 在 查询 (与 普通 文件 类 似 ) 中 的 搜索 项 签名 的 逻辑 和 来 表示 的 。 
如 果 查 询 的 签名 与 文档 的 逻辑 积 等 于 原始 查询 ， 则 文档 是 结果 文档 的 候选 项 。 
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(c) Jaccard 系数 和 Tanimoto 系数 

作为 用 于 搜索 页 面 的 相似 性 ， 除 了 基于 TFTDF 特征 项 的 余弦 测度 外 ， 下 面 的 系数 也 是 
经 常 要 使 用 的 。 

(定义 ) Jaccard 系数 

© 假设 一 个 shingle” 是 g 元 的 (q 个 连续 标记 的 长 度 ) 。 

e WRX d 中 包含 的 一 组 由 5S(d) 表示 的 Shingle, W) Jaccard 系数 可 以 定义 如 下 : 

x |S(d,) AS(d,) | 

Jaccard 系数 (di ,d,) = [S(d,) US(d,) | 

如 果 这 里 用 一 般 的 集合 来 代替 Sd), Jaccard 系数 将 定义 为 集合 的 相似 度 。 此 外 ， 在 
信息 检索 中 ，Tanimoto 系数 可 作为 文件 之 间 的 相似 性 来 使 用 。 

(定义 ) Tanimoto 系数 

如 果 文 档 q, 的 特征 向 量 是 d,， 那 么 Tanimoto 系数 的 计算 方法 如 下 : 

x |S(d,) NS(d,) | 

Jaccard AB (d,, d,) = [S(d,) US(d,)] 

由 上 和 式 可 知 ， 在 特征 向 量 的 每 个 元 素 是 二 元 的 特殊 情况 下 ( 即 0 或 1) Tanimoto 系数 
就 变 成 了 由 特征 向 量 组 成 集合 的 Jaccard 系数 ， 因 为 每 个 特征 向 量 元 素 表示 相应 的 集合 元 
素 的 存在 或 不 存在 。 

另外 ， 页 面 的 链接 也 可 以 同时 被 用 来 计算 页 面 搜索 的 相似 性 。 例 如 ， 这 类 方法 包括 基 
于 HITS 的 方法 和 基于 共 引 (cocitation) 的 方法 ， 这 些 将 在 后 面 介绍 。 

(d) LSI 

接 下 来 ， 将 解释 潜在 语义 索引 (Latent Semantic Indexing, LSI) [Liu 2007], LSI 由 以 
下 步骤 执行 : 

1. 对 特征 项 - 文档 矩阵 A,,, 进 行 奇异 值 分 解 [ Anton 2002]， 并 获得 矩阵 的 乘积 
U, S, VsT。 HP, U, A V, EEEE, S ERK r 的 对 角 和 矩阵 。 5, 的 对 角 线 元 素 是 
REHE, c>- > =0,> 0, 

2. HAMKI k HE m E B EARR O E, 使 用 由 其 形成 的 矩阵 5, 选择 
(<r) 个 最 大 奇异 值 。 
通过 使 一 些 隐 藏 特征 项 的 频率 变 得 更 大 ，LSI 使 得 用 户 能 够 发 现 文档 之 间 的 语义 相似 
性 ,或 者 文档 和 潜在 的 基于 原始 特征 项 的 查询 。 换 句 话 说 ，LSI 可 以 实现 概念 结构 ， 称 为 
隐藏 在 同义词 的 影响 下 的 概念 空间 。 从 而 ，LSI 不 仅 可 以 消除 一 些 噪声 ， 还 可 以 减 小 文 
档 向 量 的 大 小 。LSI 还 可 以 做 聚 类 的 预 处 理 可 视 化 。 

(e) 使 用 关联 规则 

下 面 描述 使 用 关联 规则 的 文档 挖掘 。 如 果 每 个 文档 被 认为 是 一 个 事务 ， 则 包含 在 文档 
内 的 特征 项 就 可 以 视 为 对 应 于 交易 内 的 事务 。 于 是 挖掘 关联 规则 就 可 以 应 用 于 该 文档 。 经 
常 出 现在 文档 内 的 连续 术语 之 间 的 相关 性 可 以 构成 复合 术语 〈 即 短语 ) 。 如 果 复 合 项 正确 
检测 到 ， 那 么 自动 标记 文档 和 删除 无 意义 的 结果 就 可 以 执行 。 如 果 应 用 关联 分 析 指 定 查 询 
的 搜索 项 的 集合 ， 那 么 频繁 出 现 的 搜索 项 的 建议 就 可 以 实现 。 


© Shingle 在 英文 里 的 意思 是 用 瓦 片 堆 县 起 来 的 屋顶 ， 但 这 里 它 是 一 种 算法 的 名 称 。 一 一 译 者 注 
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11.3 网 页 分 类 


目前 为 止 ， 我 们 已 经 详细 解释 了 网 页 的 搜索 。 这 里 介绍 一 下 网 页 的 分 类 。 作 为 准备 ， 
先前 述 一 下 一 般 的 分 类 技术 。Yang 和 其 他 人 在 他 们 的 文献 [Yang 1999] 中 比较 了 以 下 三 
种 技术 : 

。 支持 向 量 机 

。 k 最 近邻 算法 

。 朴素 贝 叶 斯 

虽然 这 篇 文章 中 也 比较 了 线性 最 小 二 乘法 [Manning et al. 1999] 和 神经 网 络 [ Mitch- 
ell 1997] ， 但 是 一 般 只 将 上 述 三 种 作为 比较 流行 的 分 类 技术 。 


11.3.1 支持 向 量 机 


Vapnik 介绍 了 一 种 支持 向 量 机 [ Burges 1998 | 方法 。 在 可 以 线性 分 离 的 空间 中 ， 被 称 
为 分 离 超 平面 的 平面 可 以 确定 出 的 数据 相对 于 某 一 类 别 的 正 或 负 。 

ew-x-b =0 
其 中 ,向量 x 表示 要 分 类 的 文档 ; w 和 岂可 以 从 线性 分 离 的 训练 集中 得 到 。 

这 里 D= {(y,, x,)} 是 训练 集 。 在 y = +1 和 -1 分 别 对 应 *, 属 于 和 不 属于 某 个 类 。 
支持 向 量 机 在 满足 以 下 公式 的 情况 下 ， 通 过 使 的 2- 范 数 ( 即 欧 氏 距离 ) 取 最 小 值 的 方 
式 来 确定 w M bo 

ew-x-b 2+! (y,= +1) 

ew-x-b <-1 (y= -1) 

与 分 离 超 平面 的 距离 等 于 1 / || w | 的 训练 数据 集 称 为 支持 向 量 ( 见 图 11.7)。 
上 , w 和 b 仪 由 这 些 支 持 向 量 确定 ， 而 其 他 数据 是 不 需要 的 。 

当然 ,一 般 来 说 数据 空间 不 能 总 是 线性 分 离 的 。 如 果 将 这 样 的 数据 映射 到 更 高 维度 的 
线性 可 分 离 空间 中 ， 设 p 为 这 样 的 映射 ， 所 有 必须 做 的 就 是 在 上 述 公 式 里 用 w(*) 替换 x%*。 
11.3.2 天 最 近邻 算法 

4 一 最 近邻 算法 ， 简 称 为 上 - NN [Han et al 2001] ， 就 是 在 文档 分 类 已 知 的 文档 集 里 扳 
出 相对 于 给 定 文档 的 个 最 相似 文档 的 子 集 。 然 后 关于 文档 的 候选 类 的 权重 是 通过 上 聚合 原 
始 文档 与 上 - NN 方法 中 的 文档 间 的 相似 性 来 确定 的 。 例 如 ， 可 以 通过 文档 特征 项 向 量 的 
余弦 测度 得 到 相似 性 。 

首先 ， 给 定 文档 特征 向 量 ， 下 面 两 个 或 更 多 个 候选 类 c 的 权 值 y(x，c,) 计算 如 下 : 

° y(x,c,) = 之 sim(x,d,)y(d,,c,) -b, 


如 果 4 被 分 类 为 类 c， 则 y(qd,,，c) H1, BAO, Sim(x, d) 表示 文档 x M d ZA 
的 相似 性 。 

然后 ， 根 据 分 数 的 阔 值 来 确定 文档 所 要 分 配 的 类 。 也 就 是 说 ， 如 果 分 数 超过 阔 值 ， 则 
文档 属于 该 类 ， 否 则 它 不 属于 该 类 。 


实 


wa 


alin 
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` O +1 
N O41 
9 
> 
wex—b=-] ay wex—b =0 wex— b=] 
图 11.7 支持 向 量 机 
这 里 有 必要 进行 一 下 说 明 。 4b, 的 最 佳 阐 值 是 通过 使 用 训练 集 的 子 集 来 学 习 得 到 的 。 例 


如 ， 使 值 最 大 的 5 被 确定 为 最 优 值 。 如 果 允 许 刀 可 以 是 非 最 优 值 ， 那 么 在 此 之 前 对 常数 
4 的 学 习 就 是 不 必要 的 。 


通过 这 种 方法 ， 


一 个 文档 基本 上 被 允许 属于 两 个 或 更 多 类 。 这 些 也 可 能 有 变化 。 例 


如 ， 选 择 使 上 述 公式 计算 的 权 值 最 大 的 c 作 为 类 。 在 这 种 情况 下 ，y(x,，c) 的 值 被 设置 为 


1， 否 则 被 设置 为 0。 


如 果 相 似 性 sim 和 国 值 5 都 是 常数 ， 那 么 这 个 权 值 等 于 多 数 表决 。 


11.3.3 朴素 贝 叶 斯 


在 使 用 朴素 贝 叶 


斯 的 文档 分 类 中 ， 朴 素 点 是 在 基于 给 定 一 个 类 中 的 一 类 特征 词 和 另 一 


类 特征 词 的 条 件 概率 是 独立 的 假设 下 成 立 的 。 例 如 ， 让 我 们 考虑 通过 以 下 公式 对 文档 进行 


分 类 [ Mitchell 1997 ] 


。 对 文档 Doc 的 分 类 等 同 于 定义 类 wv， 并 使 该 值 最 大 化 。 


ev= argmaxP (v,) Il p(a, = W,l v) 


i e positions 


HP, Positions 是 Doc 中 的 项 目的 位 置 集 ，a, 是 文档 中 位 于 第 i 个 位 置 的 项 目 。 此 外 , 还 引 


入 了 如 下 一 些 变量 。 


® Vocabulary: 训练 数据 D 中 的 词汇 


°D: D 中 属于 


,的 文档 集 


eT: 可 以 连接 所 有 D ,的 元 素 的 单个 文档 
eN: 7 中 项 目的 总 位 置 数 

。N,: 项 目 杷 在 工 中 的 频率 

此 外 ， 还 要 预先 学 习 以 下 概率 ; 
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_ (DI 
e P(v;) = D 


1 
NIL 从 属于 类 的 文档 中 提取 出 的 
N+ |Vocabulary | j 
项 是 WAS EMF i, 请 注意 ， 可 以 使 用 m - estimate 来 减少 概率 为 0 时 所 产生 的 偏 
差 。 
至 少 ,根据 Yang 等 人 对 上 述 的 性 能 方法 进行 的 比较 ， 性 能 顺序 排列 如 下 : 
© 文 持 向 量 机 > k - 最 近邻 算法 > 朴素 贝 叶 斯 


e PCa, = W, | v,) = P(W, | v,) = 


11.4 网 页 聚 类 


接 下 来 ， 将 描述 网 页 的 聚 类 。 作 为 准备 ， 将 首先 措 述 用 于 一 般 文 档 的 聚 类 技术 。 关 于 
这 些 技 术 的 比较 研究 [ Steinbach et al. 2000] 对 比 了 从 以 下 三 个 指标 来 确定 分 层 聚 类 中 要 
合并 的 两 个 集群 。 

。 集群 内 相似 性 : 考虑 集群 的 质心 和 集群 中 的 文档 的 相似 性 总 和 。 令 Sim(X) 为 集 
群 基 的 这 种 相似 性 ， 令 C; 是 通过 合并 两 个 集群 C, 和 C, 而 形成 的 新 集群 。 集 群 C, 和 C, 可 通 
过 使 Sim(C,) - Sim(C,) - Sim(C,) 最 大 化 来 确定 。 

© 质心 相似 性 : 通过 合并 两 个 集群 来 最 大 限度 地 提高 质心 之 间 的 相似 性 。 

© UPGMA ( 非 加 权 配 对 算术 平均 法 ) : 通过 合并 两 个 集群 最 大 限度 地 提高 包含 在 独 
立 集群 中 的 所 有 文档 对 的 相似 性 的 平均 值 。 

注意 ,使 用 基于 特征 项 的 余弦 测度 来 计算 文档 或 集群 之 间 的 相似 性 。 

Steinbach 等 人 认为 ，UPGMA 是 以 上 三 种 方法 中 最 好 的 一 种 。 此 外 ， 他 们 还 比较 了 下- 
均值 、 二 等 分 的 -均值 和 使 用 UPGMA 的 分 层 聚 集聚 类 ， 并 得 出 结论 : 二 等 分 的 -均值 
是 其 中 最 好 的 。 下 面 详 述 二 等 分 的 -均值 法 的 算法 。 

(算法 ) 二 等 分 的 -均值 方法 

1. 重复 以 下 过 程 ， 直 到 集群 的 数量 达到 大 | 

2. 根据 某 个 合适 的 测度 来 选择 一 个 集群 ; 

3. 通过 大- 均值 方法 (k = 2) 将 集群 一 分 为 二 ， 并 用 新 的 两 个 集群 代替 原 集 群 | 

这 里 作为 候选 篮 的 划分 ， 选 择 那些 具有 最 大 或 最 小 的 簇 内 相似 性 的 候选 复 。 

接 下 来 ， 描 述 网 页 聚 类 的 技术 。 

除了 主要 的 基于 网 页 特征 项 的 聚 类 ， 还 有 其 他 基于 网 页 结构 的 方法 。 为 了 给 Web 搜 
索引 擎 得 到 的 结果 聚 类 ， 一 些 系统 不 仅 考虑 页 面 内 的 特征 项 ， 而 且 还 包括 了 页 面 的 转 人 和 
跳出 链接 页 面 间 的 相似 性 指标 。 

例如 ，Wang 和 其 他 人 [Wang et al.2002 ] (EFA INA ARIK WW REN k- 均值 方法 ， 而 
Modha 和 其 他 人 [ Modha 2000 ] 使 用 -均值 法 扩展 的 加 权 内 积 也 涉及 了 上 述 三 个 方面 。 
这 些 方法 通常 使 用 共 引 的 概念 ， 其 定义 如 下 。 

(定义 ) 共 引 

e 如 果 文 档 4 M B 都 是 从 C 引 用 的 ， 则 称 4 M B 是 共 引 的 。 

共 引 的 概念 如 图 11. 8 所 示 。 对 于 图 11. 8a 说 明 的 引用 关系 ， 存 在 一 个 如 图 11. 8b 所 示 
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的 引用 矩阵。 图 11. 8c PART RAE LL 中 的 元 素 c, 表 示 当 文档 i 和 文档 j 被 共同 引用 的 
次 数 。 


000 00 0) [3 1 2 00 0) 
000 0 0 0 11000 0 
000000 202 00 0 
L'L= 
1 10 0 00 000 00 0 
101 0 0 0 000 000 
101000 000 00 0 
a) 引用 关系 b) s| HHE c) 计算 结果 

图 11.8 共 引 


WR A 和 B 被 共同 引用 ， 就 被 解释 为 它们 是 语义 相关 的 。 在 网 页 的 页 面 中 ， 这 就 对 应 
于 共同 引用 的 文件 页 面 同时 链接 自 某 一 页 面 。 

Pitkow 等 系统 中 的 基于 共 引 的 聚 类 算法 [Pitkow et al. 1997] 描述 如 下 。 

(算法 ) 基于 共 引 的 聚 类 

1. 对 于 添加 了 引文 信息 的 一 组 文档 ， 统 计 每 个 文档 的 引文 数量 。 仅 考虑 引用 数目 等 于 
或 大 于 茶 一 国 值 的 文档 作为 下 一 步 处 理 的 目标 。 

2. 生成 一 对 共 引 的 文件 并 计算 被 引用 的 次 数 。 这 样 的 列表 被 称 为 配对 表 。 

3. 从 配对 表 中 选择 一 对 。 

4. 查找 配对 表 中 至 少 包含 该 对 中 一 个 文档 的 其 他 对 。 对 找到 的 文件 对 重复 此 步骤 ， 
直到 没有 这 样 的 对 为 止 。 将 一 组 以 这 种 方式 获得 的 所 有 文档 (文档 对 ) 组 成 一 个 集群 。 

5. 如 果 配 对 列表 中 没有 配对 ， 则 终止 。 否则 ， 转 到 步骤 3。 

换 句 话说 ， 该 算法 基于 共 引 关系 计算 传递 闭 包 ，, 传递 闭 包 对 应 于 集群 。 此 外 ， 只 有 当 
文档 在 邻接 矩阵 区 中 引用 文档 7 时， 才 有 元 素 (i, j) = 1, ELL 中 的 元 素 (k, L) 
表示 文件 上 和 /! 和 之 间 的 相似 关系 ， 和 矩阵 可 以 是 共 引 索引 。 


11.5 微 博 总 结 


在 本 节 中 ， 我们 要 阐述 的 不 是 普通 的 文章 ， 而 是 微 博 (例如 Twitter) 。 Twitter 中 的 文 
章 ， 称 为 tweets ( 推 文 ) ， 比 一 般 博 客 的 形成 更 快 。 归 纳 总 结 一 系列 文章 的 内 容 (通过 搜 
索 一 些 紧 急 和 热门 话题 获得 ) 是 非常 重要 的 。 

以 下 是 总 结 推 文 的 过 程 ( 见 图 11.9)。 

(算法 ) 总 结 推 文 

1. 搜索 一 组 包含 特定 主题 的 相关 文章 。 例 如 ， 如 果 一 个 散 列 标签 ( 即 被 # 标 记 的 话 
题 ) 是 可 用 的 ， 则 相关 的 文章 可 以 使 用 APT 的 散 列 标签 来 指定 键 的 搜索 。 

2. 从 文章 集中 实时 检测 突 发 。 突 发 的 定义 如 下 。 

(定义 ) 突 发 

。 两 个 连续 事件 的 间隔 时 间 的 平均 值 变 得 比 平均 间隔 短 得 多 的 一 个 时 间 段 称 为 突 发 。 
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实时 处 理 窒 发 i 


图 11.9 ”对 推 文 的 抽象 过 程 
某 一 文档 d 与 男 一 文档 d, 之 间 的 重复 程度 被 定义 为 两 个 文档 之 间 的 相似 性 。 其 定义 如 


F: 
(定义 ) 文档 之 间 的 相似 性 
1SCd)nSCo)n7| 


。 文 档 之 间 的 相似 性 (4 da) = 一 上 CD 


HF, S(d) 是 由 文档 d 所 包含 的 一 组 特征 项 ; 7 是 由 文档 集 所 包含 的 、 由 TFIDF 来 确定 
的 一 组 重要 项 集 。 


oy 
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REANA Web 访问 日 志 控 掘 的 基本 技术 和 应 用 ， 例 如 推荐 、 网 站 设计 改进 、 合 
作 滤 波 和 Web 个 性 化 。 接 着 ， 将 讲述 深层 Web 挖掘 ， 即 包括 深层 网 络 社交 数据 在 内 的 提 
取信 息 技 术 。 


12.1 Web 访问 日 志 挖 掘 


12.1.1 访问 日 志 挖 掘 和 推荐 


Web 访问 日 志 挖 掘 是 分 析 访 问 某 一 网 站 的 用 户 的 网 站 访问 历史 [Liu et al2007]， 其 
分 析 结 果 主 要 用 于 向 其 他 用 户 推荐 页 面 或 重新 设计 网 站 。 当 正常 用 户 和 所 谓 的 Web 机 器 
人 访问 网 站 时 ,包括 IP 地址 、 访 问 时 间 、 请 求 页 面 、 浏 览 器 名 称 ( 即 代 理 ) 、 在 此 之 前 访 
问 过 的 页 面 ， 以 及 搜索 项 都 将 被 记录 在 Web 访问 日 志 中 ( 见 图 12.1) [ Ishikawa et 
al. 2003 ] 。 


D133.86.XX.XXX @- @- @[2006-04-01 10:27:07 +0900] 

©"GET /index.html HTTP/1.1" ©200@)9554 

©" http:/Avww.tmu.ac.jp/academics.html " 

©"'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)" 


hostname ident @authuser date 
request @status Mbytes 

®refer 

@useragent 


图 12.1 Web 访问 日 志 数据 示例 


数据 经 处 理 后 ， 删 除 不 必要 的 Web 机 器 人 记录 ， 就 是 访问 历史 的 日 志 了 ， 从 日 志 ! 
提取 会 话 〈session) ， 然 后 通过 对 用 户 进 行 分 类 或 聚 类 来 创建 用 户 模型 。 

基本 上 ， 访 问 者 是 人 类 还 是 Web 机 器 人 是 可 以 很 容易 知道 的 。 因 为 Web 机 器 人 必须 
遵循 网 站 关于 机 器 人 的 协定 〈 即 ， 机 融 人 排除 协定 ) 。 此 外 ， 人 类 访客 和 Web 机 器 人 也 可 
以 通过 在 预先 创建 的 机 器 人 列表 中 检查 是 否 包 括 访问 者 来 进行 区 别 。 但 是 ， 这 些 方 法 对 于 
恶意 Web 机 器 人 或 新 的 尚未 注册 的 Web 机 器 人 无 效 。 在 这 种 情况 下 ， 需 要 检测 Web 机 器 
人 的 访问 模式 ， 而 这 个 任务 本 身 将 是 一 种 Web 访问 日 志 挖 掘 [Tan et al. 2002 ] 。 无 论 如 
何 ， 为 简单 起 见 ， 假 设 Web 访问 日 志 已 被 清空 ， 也 就 是 说 ，Web 机 融 人 的 访问 日 志 已 通 
过 某 种 方法 被 清除 了 。 

同一 用 户 访 问 的 页 面 序列 称 为 会 话 。 访 问 者 是否 为 同一 用 户 ， 可 由 其 卫 地 址 判断 。 


SS 
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一 般 来 说 ， 不 能 保证 相同 的 IP 地址 (例如 ,动态 IP 地址) 代表 相同 的 用 户 。 因 此 ， 为 了 


能 正确 识别 同一 个 用 户 ， 可 能 需要 结合 其 他 信息 (例如 ,代理 ) 。 
通常 假定 一 个 访问 和 后 续 访问 之 间 的 时 间 间 隔 少 于 30min， 因 此 ,会 话 是 统一 的 。 至 
于 从 访问 日 志 中 提取 会 话 的 其 他 方法 ， 在 整个 会 话 期 间 可 以 使 用 整个 会 话 的 时 间 阔 值 或 考 
虑 包含 它 之 前 所 访问 页 面 会 话 中 的 访问 页 面 。 

下 面 阐述 如 何 提取 基于 转移 概率 的 访问 模式 。 

从 页 面 4 到 页 面 B 的 转移 概率 P (ASB) 计算 如 下 (ILEI 12.2): 

© P(A=>B) = {A F] B 的 转移 数 1/14 的 总 转移 数 | 

此 外 ， 页 面 路 径 的 转移 概率 P (4 一 B 一 C) 计算 如 下 : 

e P(A>B>C) = P(A>B) x P( BSC) 


D = ae 
oy 

‘ | E 
Y 


p438) -到 B 的 转移 数 1 


4 的 总 转移 数 1 P(A>B>C)=P(4>B)xP(B>C) 


图 12.2 


j 户 访问 历史 和 转移 概率 
以 上 月 


日 于 概率 计算 的 方法 假设 每 个 转移 都 是 一 个 独立 的 事件 。 
通过 分 组 (RX) 提取 用 户 的 访问 模式 来 构建 用 户 模 型 。 下 面 ， 以 推荐 为 例 来 阐明 
挖掘 结果 的 应 用 。 当 用 户 访问 某 个 页 面 时 ,会 有 一 项 规则 (等 于 或 大 于 阔 值 的 转移 概率 ) 
作用 其 中 。 也 就 是 说 ， 用 户 和 用 户 之 间 的 相似 性 模型 是 通过 某 种 方法 计算 出 来 的 ， 然 后 得 
出 最 合理 的 用 户 模型 。 基 于 用 户 当 前 的 页 面 ， 根 据 其 访问 模式 在 所 选 模型 中 向 用 户 推荐 另 
一 个 最 可 能 的 页 面 。 

例如 ， 


以 下 是 仅 基 于 转移 概率 的 推荐 方案 (JILE 12.3), 

。 路 径 推 荐 : 同时 分 析 用 户 经 常 访问 的 不 同 页 面 的 路 径 〈 即 序列 ) 并 推 
。 基于 链 路 预测 的 推荐 : 仅 推 荐 最 后 一 个 用 户 经 常 访问 的 路 径 的 页 面 。 
。 基于 访问 历史 的 推荐 : 基于 目前 为 止 所 访问 的 页 面 以 及 当前 页 面 来 推荐 页 面 。 请 

注意 ,不 同 于 之 前 介绍 的 概率 P(ASBSC), ， 推 荐 的 、 基 于 访问 历史 的 、 路 径 4 一 B 一 C 的 


转移 概率 P,(ASBSC) 可 通过 以 下 公式 计算 : P (ABC) = | 从 4 到 C 经 过 B 的 转移 
数 1/| 从 4 到 B 的 转移 总 数 } 。 


132 FLEE KA AE Hh 


推荐 路 径 


a) 路 径 推荐 D) 基 十 链 路 的 推荐 


pu(4383C)_ AACA BEER 


从 4 到 8 的 转移 总 数 


推荐 页 
o) 基 十 访问 历史 的 推荐 


图 12.3 基于 转移 概率 的 推荐 


因此 ， 如 果 用 户 从 除了 页 面 4 以 外 的 页 面 (BA) 来 到 8， 则 此 方法 将 使 用 Pj (4' 一 
BoC) 的 概率 来 代替 。 由 于 挖掘 关联 规则 的 变化 ， 一 般 来 说 ，Apriori 算法 对 于 概率 已 ,的 
计算 效率 会 有 不 小 的 提高 。 

此 外 ， 考 虑 到 其 他 信息 (W Web 的 结构 页 面 ) 推荐 系统 能 够 采用 下 述 方法 赋予 转移 
概率 权重 (SLA 12.4). 

。 由 链接 加 权 的 推荐 : 如 果 一 个 页 面 有 w 个 页 面 链接 ， 比 较 简 单 的 方法 是 使 用 V 作 
为 页 面 的 权重 ， 相 对 复杂 的 方法 是 应 用 Web 结构 挖掘 技术 (如 PageRank) 来 控 掘 网 页 中 
的 信息 ， 并 确定 网 页 在 页 面 排名 中 的 权重 。 

e 由 用 户 访问 加 权 的 推荐 : 对 于 具有 用 户 访问 特征 的 页 面 给 予 较 高 的 权重 ， 例 如 用 
户 长 时 间 停 留 或 经 常 访问 的 页 面 。 


Eg 
权重 2 

a) 出 链接 加 权 的 推荐 

图 12.4 基于 转移 概率 加 权 的 推荐 


笔者 还 考虑 过 以 点 击 量 的 减少 和 用 户 到 达 目 标 页 面 的 时 间作 为 推荐 有 效 性 的 度量 
[Ishikawa et al. 2003 ] 。 基 于 这 些 度量 ， 笔 者 发 现 链 路 加 权 推 荐 至 少 比 其 他 没有 权重 的 方法 
更 有 效 。 
12.1.2 聚 类 访问 模式 

这 一 节 ， 放 我 们 考虑 聚 类 访问 模式 。 每 个 会 话 都 可 以 作为 页 面 标识 符 的 序列 。 因 此 ， 


MA 
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会 话 又 可 以 在 基于 序列 相似 性 的 基础 上 进行 分 类 。 下 面 将 介绍 一 个 与 用 户 访问 模式 聚 类 有 
关 的 研究 [Ishikawa 等 2003] 。 

这 项 研究 的 目的 是 挖掘 一 家 日 本 的 电影 网 站 在 某 个 星期 天 的 访问 历史 。 这 项 工作 使 用 
二 元 转移 的 表达 式 。 例 如 ， 从 页 4 到 页 BH ASB 表示 。 

一 般 来 说 ， 如 果 在 网 站 中 总 共有 NN 个 页 面 ， 则 可 能 会 有 Nx (N -1) 个 不 同 的 转移 。 
为 了 简单 起 见 ， 每 个 会 话 由 特征 向 量 来 表示 ， 特 征 向 量 中 的 元 素 表示 二 元 转移 在 会 话 中 的 
存在 性 。 这 里 ， 我 们 不 使 用 页 面 转移 的 二 元 表达 式 表征 ， 而 是 用 页 面 转移 序列 来 表示 会 话 
[ Fu et al. 1999] , ， 同 时 考虑 在 每 页 的 逗留 时 间 。 

适用 的 聚 类 技术 包括 夺 - 均值 [Shahabi et al. 1997], BIRCH [Fu et al. 1999] 和 其 他 方法 
[Yan et al. 1996] 。 在 笔者 的 实验 中 ， 分 层 聚 合 聚 类 法 被 用 于 在 Web 访问 的 日 志 与 基于 欧 氏 
距离 的 Ward 方法 里 的 会 话 。 在 实验 中 ， 若 类 似 集群 之 间 的 最 短 距 离 发 生 剧 烈 变化 ， 集 群 从 6 
减少 到 5， 于 是 创建 6 个 目标 集群 。 因 此 ， 第 6 个 集群 是 页 面 转移 NextRoadshow >Roadshow 
最 频繁 的 (Roadshow 即 巡 回 演出 ) 。 顺 便 说 一 下 ， 该 工具 可 以 智能 地 形成 集群 可 视 化 树 状 
图 并 检测 集群 之 间距 离 的 变化 。 

用 户 通 常 期 望 Roadshow 页 面 有 本 周 的 时 间 表 而 NextRoadshow 页 面 有 下 周 的 时 间 表 。 
根据 星期 天 的 访问 日 志 ， 用 户 访问 页 面 NextRoadshow 是 为 了 看 到 下 个 星期 的 日 程 表 。 

另 一 方面 ， 巡 回 演出 的 日 程 表 管 理 的 是 网 站 上 从 本 周 六 至 下 周 五 的 日 程 。 下 一 周 巡 回 
演出 的 日 程 安排 被 包含 在 NextRoadshow 页 面 中 ， 每 逢 星期 六 它 就 会 被 从 NextRoadshow 页 面 
移动 到 ( 而 非 复制 ) Roadshow 页 面 ， 例 如 ， 用 户 实 际 访问 网 站 的 那 一 天 的 前 一 天 。 此 外 ， 
在 本 周 六 和 下 周二 之 间 ， 页 面 NextRoadshow 被 清空 以 便 更 新 。 然 后 ， 用 户 注意 到 在 星期 日 
期 间 访问 的 “错误 ”页 面 (NextRoadshow) 然后 又 被 移动 到 “正确 ”的 页 面 (Roadshow) 。 

事实 证 明 ， 挖 掘 的 结果 就 是 ， 这 样 的 用 户 访 问 频 繁 发 生 。 也 就 是 说 ， 上 面 用 引号 
(“”) 包围 的 部 分 在 用 户 和 站 点 管理 员 的 认识 上 存在 不 同 。 换 句 话 说， 分 析 结 果 可 以 表 
明 ， 该 网 站 的 设计 是 不 合理 的 。 在 很 多 种 情况 下 ， 像 这 样 的 在 网 站 设计 阶段 是 可 以 被 检查 
出 来 的 。 虽 然 其 结果 能 够 通过 推荐 的 页 面 弥 补 ， 但 是 它 最 有 效 的 方式 是 为 网 站 管理 员 提 供 
建议 ， 以 便 对 不 合适 的 设计 进行 改进 。 


12.1.3 合作 滤波 和 Web 个 性 化 


一 般 情 况 下 ， 类 似 下 面 这 些 功 能 的 网 站 可 以 考虑 使 用 基于 访问 日 志 挖掘 相关 的 技术 。 

1. 推荐 相关 页 面 或 一 组 相关 页 面 ， 无 须 更 改 网 站 。 

2. 动态 更 改 现 有 页 面 ， 并 推荐 新 的 页 面 。 

3. 建议 网 站 管理 员 重 新 设计 网 站 ， 即 永久 更 改 当 前 页 面 。 

功能 1 和 2 对 应 于 通常 的 Web 推荐。 特别 地 ， 功 能 2 被 称 为 Web 个 性 化 [ Mobasher et 
al. 2000] 。 功 能 3 对 应 于 前 面 解释 过 的 示例 。 无 论 如 何 ，Web 访问 日 志 控 掘 的 结果 可 以 帮 
助 用 户 有 效 地 到 达 目 标 页 面 。 此 外 ， 一 些 推荐 系统 则 可 以 通过 提前 问卷 的 方式 明确 地 获得 
用 户 的 需求 信息 以 建立 用 户 模型 ， 而 其 他 推荐 系统 则 可 以 分 析 用 户 的 浏览 页 面 和 购买 产品 
的 历史 数据 。 

下 面 的 例子 是 很 具有 代表 性 的 。 目 前 许多 商业 网 站 都 在 运用 。 

。 亚马逊 推荐 给 客户 的 图 书 ， 很 多 都 是 以 前 的 客户 买 过 的 。 这 种 情况 使 用 共同 参考 
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和 共同 引用 来 识别 用 户 模型 和 给 出 项 目 建 议 。 

。 雅虎 拍卖 允许 参与 交易 的 各 方 评价 每 个 交易 。 评 价 对 公众 开放 ， 并 且 由 第 三 方 来 实 
施 交 易 。 

因此 ， 推 荐 系统 会 根据 产品 用 户 的 需求 、 所 购买 产品 的 相关 类 别 ， 或 购买 该 产品 的 其 
他 用 户 来 推荐 新 的 产品 。 基 于 最 后 一 个 例子 (由 亚马逊 使 用 ) 中 用 户 的 行为 模式 的 建议 
被 称 为 合作 滤波 。 合 作 滤 波 的 系统 架构 如 图 12.5 TAN, HEAR, WURK, SAMK 
联 分 析 (以 及 系列 数据 按 据 ) 这 些 已 经 解释 过 的 数据 挖掘 技术 ， 也 都 适用 于 这 些 推荐 
系统 。 


图 12.5 合作 滤波 的 架构 


12.2 信息 提取 


12.2.1 信息 提取 中 的 任务 


假设 存在 一 个 项 目 可 以 用 来 创建 元 搜索 引擎 。 为 了 实现 现 有 搜索 引擎 的 结果 ， 从 
SERP (搜索 引擎 结果 页 ) 提取 关于 每 个 页 面 的 信息 〈 例 如 ，URL) ， 通 常 列 出 10 或 20 项 
检索 页 。 类 似 地 ， 为 了 使 用 互联 网 购物 网 站 的 搜索 结果 来 构建 元 搜索 引擎 或 对 比 购物 网 
站 ， 从 每 个 项 目的 搜索 引擎 或 对 比 网 站 的 结果 页 面 中 正确 提取 项 目 是 很 有 必要 的 。 

此 外 ， 为 了 从 研究 者 的 论文 或 附属 的 学 术 团体 中 分 析 研 究 人 员 的 活动 ， 有 必要 正确 地 
提取 数字 图 书馆 的 文献 计量 学 信息 ， 以 及 国际 会 议 委员 会 成 员 和 杂志 编辑 组 委 会 成 员 的 
信息 。 

而 且 ， 在 地 理 信息 系统 (GIS) 中 ,关于 坐标 的 信息 ， 如 建筑 物 的 位 置 和 建筑 物 或 设 
施 的 介绍 ， 往 往 也 是 需要 的 。 在 这 种 情况 下 ,可 以 从 维基 百科 等 相关 网 页 中 提取 必要 的 
信息 。 

因此 ， 为 了 构建 这 些 应 用 ， 需 要 识别 这 些 实体 并 从 网 页 中 提取 其 属性 值 作为 源 信息 ， 
用 于 输入 到 网 页 中 的 内 容 ， 通 常 除了 链接 之 外 是 非 结 构 化 ( 即 FLAT) 文本 或 半 结 构 化 文 
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本 (HTML) 。 半 结构 化 文本 包括 表 和 列表 。 在 另 一 方面 ,用 作答 出 的 数据 基本 上 是 结构 
化 的 数据 ， 其 可 以 由 关系 数据 库 的 元 组 ( 即 记 录 ) 表示 。 但 是 ， 默 认 值 、 值 的 集合 以 及 错 
误 的 值 可 以 被 包括 在 属性 值 中 。 因 此 ， 一 般 来 说 ， 输 出 数据 可 以 被 认为 是 半 结 构 化 数据 
(例如 XML)。 

由 此 ， 提 取 关 于 在 网 页 中 作为 输入 的 半 结 构 化 文本 的 实体 的 结构 化 数据 或 半 结 构 化 数 
据 是 十 分 有 必要 的 。 执 行 这 样 的 发 现 和 实体 的 转换 称 为 信息 提取 。 执 行 这 个 任务 的 程序 被 
称 为 信息 提取 包装 器 ， 或 者 简称 为 包装 器 。 

作为 信息 提取 的 输入 数据 的 半 结 构 化 文本 ， 既 可 以 由 服务 器 通过 数据 库 (关系 数据 
E) 动态 创建 〈 当 它们 从 深层 网 络 被 搜索 到 时 ) ， 也 可 以 像 之 前 维基 百科 中 的 文章 那样 ， 
作为 静态 页 面 被 手工 创建 。 这 里 ， 它 们 的 这 种 变化 可 以 考虑 用 于 每 个 类 别 。 我 们 会 解释 信 
息 是 如 何 从 静态 页 面 提取 的 。 而 针对 动态 页 面 的 提取 方法 则 将 在 挖掘 深层 Web 的 一 节 中 
详 述 。 

12.2.2 信息 提取 中 的 问题 


有 关 信 息 提 取 的 技术 问题 如 下 。 

因为 实体 信息 通常 是 从 两 个 或 多 个 源 中 提取 的 信息 (例如 网 站 )， 所 以 包装 器 需要 处 
理 两 个 或 两 个 以 上 的 各 种 数据 结构 作为 输入 。 对 于 包装 器 而 言 ， 它 必须 可 以 适应 各 种 输入 
结构 ， 而 且 要 注意 不 能 降低 提取 的 准确 性 ， 因 为 它 可 能 会 接收 到 一 些 杂 散 的 信息 。 

在 一 般 情况 下 ， 属 性 及 其 值 由 于 输入 数据 的 信息 源 的 不 同 而 不 同 。 属 性 是 包括 默认 值 
及 其 他 属性 值 在 内 的 集合 ， 而 不 是 一 个 简单 的 值 。 如 果 在 表 中 涉及 两 个 或 多 个 属性 ， 则 属 
性 的 顺序 可 能 会 有 所 不 同 。 所 有 这 些 将 使 得 信息 的 提取 变 得 更 加 复杂 。 

此 外 ， 从 实用 的 观点 来 看 有 必要 节省 开发 成 本 和 尽 可 能 地 降低 维护 成 本 。 

首先 ， 包 装 器 将 数据 输入 到 两 个 或 多 个 属性 中 。 接 下 来 ， 通 过 应 用 属性 提取 的 规则 来 
提取 属性 的 值 ， 并 将 提取 到 的 每 个 属性 统一 到 实体 。 如 果 任 务 包 装 器 还 包括 预 处 理 ， 它 还 
将 包括 以 下 子 任务 ( 见 图 12.6)。 


无 监督 
Zh w 
| his 测试 
的 学 习 数据 
| 有 监督 4 
的 学 习 
已 标 记 的 训练 数据 一 >》 生成 包装 器 包装 器 
: e 用 户 输入 
信息 提取 


图 12.6 生成 信息 提取 包装 需 的 方法 
1. 从 一 个 或 多 个 数据 源 获 取 输 入 数据 。 


136 社交 大 数据 挖掘 


2. 以 输入 数据 作为 训练 数据 或 手动 创建 基于 对 输入 数据 检查 的 提取 规则 ， 以 学 习 提 
取 规则 。 

3. 通过 提取 规则 提取 值 ， 并 以 适当 的 形式 输出 取 值 。 

换 句 话说 ,信息 提取 本 身 可 能 就 是 一 个 数据 挖掘 技术 的 应 用 程序 。 


12.2.3 ”信息 提取 方法 


无 论 是 通过 机 器 学 习 ， 还 是 手动 创建 提取 规则 并 将 提取 的 值 以 适当 的 形式 输出 ， 都 是 
信息 提取 的 重要 部 分 。 下 面 就 介绍 一 些 与 这 些 问题 有 关 的 方法 [Chang et al. 2006] 。 

(1) 手动 方法 

此 类 别 中 的 方法 (手动 创建 包装 器 ) 包括 下 面 的 例子 。 

TSIMMIS [ Hammer et al. 1997] 允许 用 户 描 述 输入 值 和 相关 处 理 命令 的 特殊 匹配 形式 
[变量 ， 源 和 模式 ]， 并 以 OEM 的 形式 输出 提取 的 数据 来 使 用 ， 以 描述 半 结 构 化 数据 。 

Minerva [ Crescenzi et al. 1998] 人 允许 用 户 描述 规则 表达 式 。 系 统 使 用 它们 进行 模式 匹 
配 ， 并 通过 执行 与 匹配 模式 相关 联 的 异常 处 理 程序 来 获得 输出 值 。 

WebOQL [ Arocena et al. 1998] 是 一 种 基于 被 称 为 Hypertree 的 数据 模型 的 搜索 语言 。 
它 可 以 处 理 HTML, XML 或 看 套 关 系 。 用 户 可 以 通过 使 用 WebOQL 对 页 面 发 出 查询 ， 并 提 
取 值 作 为 结果 。 

(2) 监督 方法 

此 类 别 中 的 方法 根据 预先 由 人 工 准备 好 的 训练 数据 来 创建 包装 器 集 。 它 们 包括 以 下 
实例 。 

SRV [Freitag 1998] 生成 用 来 判断 输入 片段 是 否 是 提取 目标 的 逻辑 规则 ， 从 而 获得 提 
取 值 的 单一 属性 。SRYV 试图 尽 可 能 多 地 学 习 积极 的 规则 ， 握 弃 消 极 的 规则 。 

RAPIER [ Califf et al. 1998] 使 用 语法 和 语义 处 理 单个 属性 的 模式 。 

WHISK [ Soderlandet et al. 1999] 基于 手动 编写 的 训练 数据 ， 提 取 两 个 或 更 多 的 属性 的 
输出 模式 。WHISK 会 构建 一 般 规则 并 逐步 专业 化 。 

STALKER [ Muslea et al. 1999] 通过 被 称 为 角 入 式 目 录 的 树 结构 将 半 结 构 化 文档 模型 
化 以 作为 输入 。 树 的 叶 节 点 是 要 提取 的 属性 ， 而 非 叶 节点 则 是 关于 元 组 的 列表 。 按 照 树 结 
构 的 分 层 方 式 ， 跟 踪 应 用 规则 从 父 级 提取 子 列 并 将 子 列 划分 为 元 组 以 便 提取 数据 。 

(3) 半 监 督 方法 

本 类 中 的 方法 通过 用 户 获得 实例 并 且 提 取 规 则 。 由 于 输入 数据 有 可 能 不 是 严格 正确 
的 ， 所 以 需要 由 用 户 来 对 由 这 些 方法 生成 的 提取 规则 进行 后 期 处 理 。 

在 OLERA [ Chang et al. 2004] 中 ， 系 统 通过 用 户 显 示 的 位 置 获悉 应 提取 哪些 值 ， 然 后 
创建 基于 共同 编辑 距离 的 其 他 相似 值 以 提取 模式 字符 串 。 

在 Thresher [ Hogue et al. 2005 ] 中 ， 用 户 指 定语 义 内 容 和 它们 的 意思 。 系 统 根据 树 编 
辑 距 离 来 创建 包装 器 ， 此 外 ， 用 户 可 以 将 包装 器 节 点 与 RDF 类 及 具有 某 些 含义 的 命题 相 
关联 。 

(4) 无 监督 方法 

执行 这 个 类 别 中 的 方法 就 可 以 完全 自动 地 生成 包装 器 。 

RoadRunner [ Crescenzi et al. 2001] 假设 创建 网 站 的 过 程 是 从 站 点 的 后 端 数据 库 中 制作 
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HTML 文档 开始 的 ， 并 认为 可 以 通过 推理 HTML 文档 的 语法 来 构建 页 面 的 包装 器 。 
EXALG [ Arasu et al. 2003 ] 则 是 推断 模板 而 不 是 语法 。 
基于 上 述 四 种 信息 的 生成 系统 ， 提 取 包 装 器 如 图 12. 6。 


12.3 Web 深层 挖掘 


在 人 们 创建 的 网 站 中 ， 作 为 主要 组 成 部 分 的 文本 被 称 为 表层 Web RRE Web。 男 一 
方面 ， 在 Web 的 后 端 ， 具 有 专用 的 数据 库 或 存储 库 以 存储 大 量 数据 并 动态 创建 与 用 户 的 
搜索 项 (如 Amazon 或 Google) 相 匹配 的 搜索 页 面 的 网 站 被 称 为 隐藏 Web 或 深层 Web。 在 
这 个 意义 上 ， 深 层 Web 也 被 称 为 Web 数据 库 。 深 层 Web 的 数据 是 浅 层 Web 数据 的 500 
倍 ， 并 还 在 继续 迅速 增加 [He et al. 2007 ]。 

如 上 所 述 ， 最 新 的 商业 网 站 和 社交 网 站 大 多 是 深层 Web， 其 中 有 一 个 数据 库 管理 系统 
后 端 。 然 而 ， 到 目前 为 止 ， 信 息 控 掘 的 方法 尤其 是 爬 网 方法 ， 对 于 这 些 网 站 就 显得 功能 不 
足 。 根 据 挖掘 深 层 网 的 目的 (比如 从 深层 网 站 收集 数据 或 了 解 深层 Web 的 含义 ) ， 要 解决 
的 问题 如 下 : 

(目的 1) 从 深层 Web 收集 数据 。 

1. 发 现 深 层 Web 服务 。 

2. 提取 输入 术语 ( 即 条 件 )， 用 于 查询 数据 库 。 

3. 选择 可 用 于 虹吸 数据 库 
的 术语 页 面 作 为 查询 结果 。 虹 
吸 的 图 像 说 明 如 图 12.7 所 示 。 

4. 获得 整个 原始 数据 库 中 
虹吸 结果 覆盖 率 所 需 的 比例 。 

(目的 2) 了 解 深层 Web 
的 含义 。 

1. 发 现 深 层 Web 服务 。 

2. 了 解 查询 表单 的 结构 和 
含义 。 

3. 选择 应 该 输入 到 表单 中 


的 术语 ( 即 条 件 ) 。 
4. 了 解 页 面 的 结构 和 含 Cees A 
义 ， 查询 数据 库 。 
5. 分 析 和 描述 整个 深层 
Web 服务 信息 的 结构 ， 提 取 包 12.7 ”虹吸 深层 Web 
装 器 。 
上 述 两 个 目的 的 一 个 共同 的 重要 问题 是 发 现 深层 Web 服务 。 发 现 查询 表单 是 必须 要 


解决 的 问题 。 下 列 条 件 可 以 作为 实现 该 目的 的 提示 。 
e 一 个 页 面 有 GET 和 POST, 
e 有 两 个 或 更 多 的 字段 。 并 且 和 忽视 字 段 的 自由 搜索 项 。 
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。 页 面 没 有 要 求 输入 个 人 信息 的 字段 。 如 ID、 密 码 和 信用 卡号 等 。 

在 表单 的 结构 分 析 中 ， 表 单 的 注释 ( 即 解释 ) 可 通过 以 下 过 程 创 建 。 

1. 搜索 标签 、 名 称 字段 或 ID 字段 。 

2. 使 用 字段 前 的 文本 。 

3. 通过 匹配 表单 ， 为 表单 创建 候选 一 致 的 注释 和 领域 概念 〈 即 本 体 ) 。 

对 于 目的 1， 收 集 具 有 高 使 用 频率 的 数据 并 作为 网 站 的 搜索 条 件 。 每 个 条 件 在 指定 时 
间 搜 索 ， 然 后 返回 含有 大 量 数据 的 条 件 ( 即 ， 选 择 具有 高 覆盖 率 的 条 件 )。 在 这 种 情况 
下 ， 其 中 一 个 要 解决 的 研究 问题 是 在 给 定 的 约束 条 件 下 收集 尽 可 能 多 的 数据 ， 比 如 ， 控 制 
在 可 用 资源 的 限制 内 获得 搜索 结果 的 所 需 成 本 的 条 件 。 例 如 ，[ Madhavan et al. 2008] 中 用 
的 方法 。 

对 于 目的 二 ， 可 以 通过 在 结果 页 中 提取 任意 重复 出 现 的 结构 信息 ， 自 动 构建 包装 器 。 
[Senellart et al. 2008] 就 用 到 了 其 中 的 方法 。 
通常 ， 通 过 信息 提取 ( 即 网 络 检索 ) 来 整合 搜索 服务 的 结果 。 然 而 ， 现 在 Web 服务 
API 是 可 用 的 ， 它 返回 指定 数量 的 固定 数据 的 结果 表单 (例如 ，XML)。 发 现 和 使 用 这 种 
API 可 以 使 Web 的 深层 挖掘 更 容易 。 

以 下 可 以 被 认为 是 深层 Web 挖掘 的 应 用 。 

。 元 搜索 : 用 于 构建 使 用 两 个 元 搜索 引擎 或 更 多 搜索 引擎 ， 由 每 个 搜索 引擎 统一 从 
返回 的 SERP 页 面 提 取 页 面 (URL ) 。 

。 比较 : 收集 来 自 其 他 两 个 或 更 多 个 深层 网 站 的 特定 类 别 的 对 象 (例如 ， 项 目 和 服 
务 ) ， 并 比较 来 自 所 有 网 站 的 相同 对 象 的 相同 属性 的 值 (例如 ， 价 格 ) 。 

。 集成 (基于 键 ) : 从 对 应 类 别 的 深层 网 站 获取 属于 相关 的 不 同类 别 的 对 象 (例如 ， 
作者 、 论 文 和 会 议 ) ， 并 为 这 些 对 象 加 入 连接 键 ， 诸 如 作者 姓名 的 键 作 为 备用 ， 然 后 将 其 
呈现 给 用 户 。 

。 集成 (基于 非 键 ) : 为 各 种 类 别 从 深层 网 站 获取 属于 不 同类 别 的 对 象 ( 例 如， 预测 
核 辐 射 传播 的 数据 和 降水 的 数据 ) 。 加 入 并 使 用 与 这 些 对 象 相 关联 的 时 间 和 空间 的 代理 信 
息 的 对 象 作为 通用 连接 条 件 。 特 别 地 ， 根 据 特定 需求 的 科学 规律 (比如 ， 明 确 的 知识 ) 
所 观察 到 的 或 计算 获得 的 数据 库 来 构建 的 深层 网 站 称 为 集体 智慧 Web。 通 过 使 用 这 样 的 网 
站 ， 可 以 获得 跨 学 科 的 集体 智慧 〈 例 如 ， 高 水 平 的 污染 风险 区 域 ) 。 现 在 这 样 的 深层 Web 
在 电子 科学 中 的 应 用 在 数量 上 已 经 大 幅 增加 。 

根据 上 述 应 用 ，Web 数据 库 可 以 建 模 如 下 . 

。 元 搜索 : 作为 子 集 虚 拟 数 据 库 ， 每 个 搜索 引擎 通常 会 根据 自己 的 标准 (PageRank 
和 HITS) 从 一 个 包含 所 有 网 页 的 虚拟 数据 库 的 子 集中 抓 取 页 面 并 对 它们 进行 排序 。 但 是 ， 
每 个 页 面 的 排名 因 搜 索引 擎 而 异 。 因 此 元 搜索 引擎 需要 对 页 面 进行 全 局 排名 。 

© 比较 : 每 个 深层 Web 点 从 一 个 包含 了 同一 类 别 中 所 有 对 象 的 虚拟 数据 库 中 选择 一 
个 子 集 ， 并 通过 插入 新 值 或 更 新 对 象 的 某 个 属性 的 现 有 值 来 存储 子 集 。 例 如 ， 相 同 商品 的 
价格 在 不 同 的 购物 网 站 上 是 不 一 样 的 ， 因 此 ， 按 照 某 些 属 性 (如 价格 和 星 级 评定 ) 对 对 
象 进行 排序 使 得 用 户 可 以 轻松 地 找到 自己 想 要 的 商品 。 

。 集成 (ETHE): 每 个 网 站 都 包含 属于 它 自己 类 别 对 象 的 数据 库 (或 子 集 ) 。 此 外 ， 
每 个 数据 库 可 以 使 用 的 内 容 属性 包含 通常 作为 与 其 他 数据 库 连 接 的 键 。 例 如 ， 发 表 科 学 杂 
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志 论 文 和 国际 会 议论 文 的 作者 会 被 分 别 收录 在 科学 杂志 和 国际 会 议 的 数据 库 里 。 它 们 可 以 
通过 以 作者 名 作为 连接 键 被 连接 起 来 。 

。 集成 (基于 非 密 钥 ): 每 个 网 站 都 包含 一 个 属于 其 自己 类 别 对 象 的 数据 库 (或 子 
集 ) 。 此 外 ， 每 个 数据 库 的 属性 包含 时 间 和 空间 信息 ， 这 些 可 以 普遍 用 作 条 件 加 入 其 他 数 
据 库 中 。 例 如 ， 如 果 在 同一 时 间 和 同一 空间 区 域内 ,计算 由 放射 能 影响 应 急 快 速 预测 系统 
(System for Prediction of Environmental Emergency Dose Information, SPEEDI) 所 预测 的 核 辐 
射 传播 与 实际 降水 量 ( 雨 云 量 ) ZAR, KARERE MRE, IA 
就 可 以 对 重度 放射 性 污染 区 域 做 出 一 个 粗略 的 预测 。 作 为 跨 学 科 集 体 智慧 的 体现 ， 通 过 集 
成 分 析 同 一 时 间 、 同 一 地 点 的 降雨 量 雷 达 图 (由 北 本 教授 绘制 [Kitamoto 2011], A e 
动 ) 和 SPEEDI 的 结果 图 像 (由 日 本 的 原子 力 安全 保安 院 绘制 【Nuclear and Industrial Safe- 
ty Agency 2011] ， 略 有 改动 )， 就 可 以 粗略 地 预测 出 重度 放射 性 污染 区 域 。 图 12. 8 是 对 集 
成 分 析 的 一 个 概括 性 的 描述 。 
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社交 大 数据 的 特点 不 仅仅 是 数据 量 大 ， 而 且 数 据 结构 种 类 多 。 本 章 将 阐述 针对 XML 
数据 、 树 、 图 的 高 级 挖掘 ， 针 对 图 像 和 视频 的 多 媒体 挖掘 ， 以 及 针对 时 间 序 列 的 数据 流 的 
挖掘。 


13.1 XML 挖掘 


13.1.1 #238 XML 


本 节 将 阐述 有 关 半 结构 化 数据 (如 XML) 的 挖掘。 虽然 近年 来 有 越 来 越 多 的 人 研究 挖 
掘 XML， 却 很 少 有 人 对 其 进行 系统 的 分 析 。 遵 循 Web 挖掘 的 分 类 规则 ，XML 挖掘 分 类 如 下 : 

© XML 结构 挖掘 

。 XML 内 容 挖掘 

© XML 访问 日 志 挖 掘 

假设 XML 挖掘 的 主要 目标 是 发 现 XML 数据 中 的 频繁 模式 ， 那 么 以 下 应 用 似乎 很 有 前 
景 。 在 本 节 中 ， 我 们 对 XML 数据 和 XML 文档 之 间 并 没有 做 严格 的 文字 区 别 。 

。 使 用 关系 数据 库 有 效 地 存储 XML 数据 
通过 总 结 关系 数据 库 中 的 XML 数据 的 频繁 结构 ， 数 据 库 中 表 的 连接 操作 (BIA) 
的 数量 是 可 以 被 有 效 地 查询 和 处 理 的 。 

。 协助 制定 XML 数据 查询 和 视图 

一 般 情 况 下 ， 除 非 预先 知道 XML 数据 结构 ， 否 则 ， 查 询 是 不 能 制定 的 ， 但 是 如 果 了 
解 了 频繁 结构 的 数据 ， 就 可 以 使 用 此 结构 来 制定 查询 。 因 此 ， 如 果 将 这 样 的 查询 以 XML 
数据 视图 的 形式 进行 定义 ， 我 们 就 可 以 重复 使 用 它 了 。 

© 对 XML 数据 进行 索引 

如 果 建 立 索 引 ， 则 可 以 有 效 地 处 理 XML 数据 查询 并 提前 频繁 访问 XML 数据 。 

e XML 数据 汇总 

在 XML 文档 中 会 有 一 个 经 常 使 用 的 子 文档 ， 这 个 文档 可 以 总 结 整个 文件 。 在 这 个 结 
构 下 ， 它 们 代表 整个 文件 的 大 纲 。 

© XML 数据 压缩 

可 以 对 结构 中 频繁 出 现 的 内 容 执行 XML 数据 的 有 效 压缩 。 

。 提取 网 页 访问 模式 

Web 访问 中 经 常 提取 频繁 出 现 的 访问 模式 日 志 并 将 其 用 于 网 页 的 推荐 或 重新 设计 网 
站 。 一 般 来 说 ， 因 为 访问 模式 可 以 更 自然 地 由 树 结构 或 图 结构 建 模 而 不 是 线性 列表 ， 所 以 
XML 数据 也 可 以 用 于 访问 模式 的 表示 。 

下 面 ， 将 详 述 XML 结构 挖 气 、XML 内 容 挖掘 和 XML 访问 日 志 控 掘 。 


a 
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13.1.2 XML 结构 挖掘 


XML 结构 挖掘 主要 从 层次 和 元 素 属 性 的 角度 识别 XML 文档 的 结构 。 它 可 以 进一步 分 
类 为 XML 文档 中 的 结构 挖掘 和 XML 文档 之 间 的 结构 挖掘 。 前 者 和 后 者 分 别称 为 XML 内 
部 结构 挖掘 和 XML 间 结 构 控 掘 。 

在 解释 了 关联 分 析 、 聚 类 分 析 和 XML 数据 分 类 这 些 数据 控 掘 的 基本 技术 应 用 后 ， 我 
们 将 对 个 别 的 技术 进行 详尽 的 阐述 。 

(1) XML 内 部 结构 挖掘 
可 以 发 现在 XML 中 ， 标 签 之 间 的 关系 是 可 以 应 用 于 XML 文档 的 关联 规则 挖掘 的 。 例 
如 ， 通 过 关注 包容 性 关系 ，XML 文档 的 层次 结构 经 常 被 转换 成 线性 交易 数据 和 标签 组 合 ， 
以 用 来 共同 发 现在 同一 元 素 内 的 元 素 或 标签 。 它 也 可 以 通过 其 他 的 差异 标签 区 分 同音 字 的 
标签 。 除 了 朴素 册 叶 斯 分 类 之 外 ， 还 有 基于 字典 和 叙 词 表 (thesauri) 的 分 类 技术 。 另 外 ， 
基于 EM 方法 的 聚 类 可 以 用 于 标签 含义 的 归纳 [Manning et al. 1999 ] 。 

(2) XML 间 结 构 挖 所 

XML 文档 结构 挖掘 与 Web 上 的 对 象 之 间 的 关系 (如 主题 、 组 织 、 网 站 ) 的 发 现 以 及 
XML 文档 集 元 素 之 间 的 关系 的 发 现 有 关 。 

尽管 XML 内 部 结构 挖掘 针对 单个 名 称 空间 ， 但 是 XML 间 结 构 挖掘 会 涉及 两 个 或 多 个 
名 称 空间 和 统一 资源 标识 符 (Uniform Resource Identifier, URI) 。 

像 XML 内 部 结构 挖掘 一 样 ，XML 间 结 构 控 掘 也 可 以 分 类 如 下 : 

。 为 了 发 现 两 个 或 多 个 XML 中 的 标签 之 间 的 关系 文档 ， 可 以 应 用 关联 分 析 。 

。 在 分 类 一 组 XML 文档 时 ， 可 以 查看 给 定 的 文档 类 型 定义 (Document Type Defini- 
tion, DTD) 作为 分 类 规则 。 如 果 给 出 了 一 个 新 的 XML 文档 ， 则 该 文档 被 分 配给 与 其 DTD 
相对 应 的 文档 类 。 换 名 话说 ， 给 定 文档 将 被 分 配 到 的 类 是 通过 对 文档 类 的 DTD 进行 验证 
来 确定 的 。 

© 对 一 组 XML 文档 进行 聚 类 需要 发 现 各 种 XML 文档 的 相似 性 。 如 果 给 出 了 两 个 或 多 
A DTD, W XML 文档 可 以 基于 这 样 的 DTD 之 间 的 相似 性 来 分 组 。 对 于 以 这 种 方式 创建 的 
组 ， 一 个 属于 每 个 组 的 文档 的 、 具 有 超级 DTD 文件 的 新 DTD 将 被 生成 。 

。 一 般 来 说 ，DTD 的 生产 者 和 用 户 (MAA XML 文档 的 制造 者 ) 被 认为 是 分 离 的 。 
这 种 关系 可 以 被 视 为 Web 结构 挖掘 中 的 如 HITS 中 的 权重 和 中 心 。 

。 基于 对 XML 文档 (实例 ) 结构 的 观察 ， 例 如 元 素 和 属性 的 XML 实例 ， 可 以 从 中 预 
W XML 的 模式 结构 ( 即 模型 )。 这 种 方法 可 以 用 于 对 XML 数据 库 进行 高 效 的 存储 和 检索 ， 
此 外 ， 它 能 够 查询 生成 的 结果 XML 文档 并 预测 XML 文档 的 结构 。 

如 上 所 述 ， 如 果 跨 越 两 个 或 更 多 个 XML 文件 的 结构 挖掘 技术 被 广泛 认 知 ， 那 么 它 将 
是 Web 结构 挖掘 与 Web 内 容 挖掘 的 一 个 重 有 至 技术。 尽管 XML 间 结 构 挖 气 不 同 于 Web 结构 
挖掘 ， 前 者 更 侧重 于 XML 文档 的 内 部 结构 ， 但 是 ， 如 果 XML 兼容 的 HTML (BI XHTML) 
被 更 广泛 地 使 用 ， 那么 这 两 种 技术 之 间 的 差异 将 会 日 益 减 少 。 

作为 这 种 XML 间 结 构 挖掘 的 技术 基础 ， 一 些 技 术 依赖 于 DTD 模式 的 存在 ， 有 一 些 则 
不 需要 。 前 者 包括 学 者 的 研究 [ Shanmugasundaram et al. 1999], ， 后 者 包括 DataGuides 技术 
[ Goldman et al. 1997]。 这 里 ， 后 者 的 技术 被 认为 是 更 有 用 的 ， 因 为 一 般 不 能 保证 任何 文件 
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的 DTD 可 用 或 者 符合 可 用 条 件 。 

在 下 文中 ,我们 会 逐步 了 解 XML 的 大 纲 提取 、DTD 的 自动 生成 、 高 效 存储 架构 的 发 
现 等 与 XML 结构 发 掘 有 关 的 技术 。 关 于 XML 的 结构 分 类 和 聚 类 则 会 在 本 小 节 的 最 后 
提 到 。 

(a) 大 纲 提 取 

XE, XF XML 数据 结构 的 大 纲 提 取 ，DataGuides 技术 是 比较 适用 的 。DataGuides 会 
创建 关于 诸如 XML 数据 的 半 结 构 化 数据 结构 的 摘要 ( 即 ， 大 纲 ) 。 它 的 目的 是 使 用 户 能 够 
浏览 XML 数据 库 的 结构 ， 然 后 针对 XML 数据 库 制 定 查询 。 此 外 ， 它 有 助 于 系统 创建 用 于 
高 效 访问 XML 数据 库 的 索引 。 

我 们 以 OEM 数据 库 将 作为 DataGuides 要 提取 目标 的 半 结 构 化 数据 库 。 作 为 OEM 数据 
库 的 组 件 一 一 对 象 由 标识 符 唯一 标识 ， 对 象 是 一 个 原始 值 ( 例 如， 字符 串 、 数 值 、 图 像 和 
程序 ) ， 其 值 由 零 个 或 多 个 子 对 象 组 成 ， 这样 的 对 象 和 子 对 象 是 通过 有 标签 的 链接 相连 的 。 
它 可 以 被 认为 是 一 个 XML 数据 库 模型 。OEM 数据 库 的 模型 如 图 13. 1 所 示 。 


ZON TN 


1 | 
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图 13.1 OEM 数据 库 的 模型 
在 定义 DataGuide 之 前 ， 标 签 路 径 的 定义 如 下 : 
(定义 ) 标签 路 径 、 数 据 路 径 、 实 例 和 目标 集 
。 标签 路 径 是 沿路 径 的 标签 序列 。 
© 数据 路 径 是 沿路 径 的 一 对 标签 和 对 象 的 序列 。 
© 如 果 数 据 路 径 d 的 标签 序列 等 于 标签 路 径 ; 的 标签 序列 ， 那 么 数据 路 径 d 是 标签 路 

EL 的 一 个 实例 。 

© 目标 集 是 一 组 可 以 通过 遍历 达到 的 标签 路 径 对 象 。 
DataGuide 使 用 上 述 概念 定义 如 下 。 
(定义 ) DataGuide 
FA OEM 源 对 象 的 DataGuide 对 象 d 满足 以 下 条 件 : 
。 s 的 每 个 标签 路 径 在 d 的 数据 路 径 中 只 有 一 个 实例 。 
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© d 的 每 个 标签 路 径 都 是 s 的 标签 路 径 。 
例如 ， 与 图 13. 1 中 的 OEM 数据 库 对 应 的 DataGuide 如 图 13. 2 所 示 。 


Z/N 


酒吧 


N 
n 


名 称 A 


图 13.2 DataGuide 

此 外 ， 强 DataGuide 的 概念 定义 如 下 : 

(定义 ) 强 DataGuide 

在 强 DataGuide 中 ， 每 个 DataGuide 对 象 对 应 于 目标 到 达 该 DataGuide 对 象 的 所 有 标签 
路 径 的 集合 。 

例如 ， 如 图 13. 3b 所 示 的 是 图 13. 3a 的 一 个 强 DataGuide 的 对 象 而 图 13. 3e 不 是 。 

类 似 于 Query By Example (QBE) [Zloof 1977] ， 用 户 可 以 对 基于 图 形 呈 现 的 DataGuide 
对 象 进行 查询 。DataGuide 对 象 还 提供 了 可 用 于 优化 的 查询 路 径 索 引 。 

(b) 自动 生成 DTD 

虽然 DataGuides 提供 了 关于 半 结 构 化 数据 的 结构 信息 如 XML， 但 创建 DTD 不 是 它 的 
初衷 。 一 些 研 究 旨 在 从 XML 数据 自动 生成 DTD。 它 们 包括 XTRACT [ Garofalakis et 
al. 2000] 和 DTD - miner [Moh et al. 2000] 。 如 果 给 出 了 XML 数据 的 集合 ， 这 些 方法 将 基 
于 集合 生成 DTD。 

XTRACT 包括 以 下 步骤 。 

(算法 ) XTRACT 

1. 泛 化 : 使 用 经 验 规则 ， 从 输入 序列 中 找 出 部 分 高 频 序列 并 且 使 其 成 为 候选 DTD, 

2. 因子 分 解 : 计算 候选 DTD 的 交集 并 作为 结果 成 为 新 的 候选 DTD。 

3. 基于 最 小 描述 长 度 (Minimum Description Length, MDL) 原理 [Tan et al. 2002] 的 
选择 : 从 上 一 步骤 中 获得 的 候选 DTD 中 选择 MDL 值 最 小 的 DTD, 

例如 ， 让 我 们 从 序列 |ab，abab，ababab| 计算 输入 的 DTD (a | b) HJ MDL 成 本 。 
DTD 的 说 明 需 要 6 个 字符 ， 三 个 序列 中 的 每 个 都 需要 指定 选择 字符 数 2、4 和 6， 并 表达 为 
a 或 04。 每 个 序列 中 的 重复 数 同样 需要 一 个 字符 。 总 体 上 ， 需 要 6+1+2+1+4+1+6=21 
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a) b) c) 
图 13.3 强 DataGuides 

个 字符 。 因 此 ， 在 该 示例 中 的 MDL 成 本 是 21。 

请 注意 ，XML 数据 库 即 使 存在 DTD ， 也 不 可 能 使 用 DTD 模式 作为 XML 文档 结构 的 规 
范 。DTD 的 最 初 目的 是 描述 XML 实例 的 结构 ， 因 此 DTD 缺乏 关于 设计 有 效 的 数据 库 模 式 
所 必需 的 存储 或 有 效 的 查询 处 理 的 信息 。 

基于 DTD 的 XML 架构 ， 一 些 研究 人 员 致 力 于 在 XML 中 建立 一 个 规范 化 理论 数据 库 
[ Wu et al. 2001] 或 XML 函数 依赖 [Chen et al. 2003] 的 XML 模式 作为 解决 方案 。 有 人 提出 
了 不 通过 DTD 直接 确定 数据 库 模 式 的 方法 的 实例 。 其 中 的 方法 之 一 将 在 下 一 节 中 详细 描述 。 

(ce) 存储 结构 的 发 现 

关于 使 用 关系 数据 库 来 存储 XML 数据 的 技术 ， 目 前 为 止 已 经 使 用 的 有 以 下 两 种 : 

。 由 系统 预先 确定 在 数据 库 中 存储 XML 数据 的 技术 模式 。 

© 从 诸如 DTD 或 实例 模型 动态 生成 在 数据 库 中 存储 XML 数据 的 技术 模式 。 
第 一 种 ， 由 系统 预先 确定 在 数据 库 中 存储 XML 数据 的 技术 模式 。 这 里 让 我 们 假设 元 
素 之 间 的 包含 关系 分 别 对 应 于 树 的 节点 和 边 。Florescu 等 人 [Florescu et al. 1999] 提出 一 
种 在 单独 的 表 中 存储 边 和 值 的 方法 ， 在 普遍 关系 中 ,假设 所 有 元 素 都 有 值 和 边 ， 为 每 种 边 
使 用 单独 表 以 存储 所 有 元 素 。Jiang 等 人 [Jiang et al. 2002, Yoshikawa et al. 2001] 则 提出 
了 通过 划分 XML 数据 的 值 ( 即 ， 字 符 数据 ) 、 元 素 和 路 径 来 存储 XML 数据 的 方法 。 

这 项 技术 具有 以 下 优点 : 

o 任何 XML 数据 都 可 以 存储 在 相同 模式 的 数据 库 中 。 

。 可 以 根据 元 素 的 顺序 存储 各 种 结构 的 XML 数据 。 

© 包括 父子 关系 的 查询 可 以 轻松 转换 成 SQL。 

然而 ， 它 在 灵活 性 方面 也 存在 着 以 下 的 缺点 : 
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。 每 个 元 素 的 数据 类 型 (例如 ， 数 值 和 字符 串 ) 不 能 自由 定义 。 

。 数据 汇总 (如 XML 数据 中 的 总 和 和 平均 值 ) 与 动态 存储 技术 相 比 显得 比较 复杂 。 

第 二 种 ， 基 于 动态 模式 的 存储 技术 。 系 统 根据 每 个 元 素 的 值 能 够 灵活 定义 数据 类 型 ， 
例如 数字 类 型 和 字符 串 。 但 是 ， 由 于 表 的 数量 也 将 随 着 元 素 种 类 的 增加 而 增加 ， 对 于 连接 
表 的 频繁 操作 需要 大 量 计 算 成 本 。 其 结果 就 是 容易 出 现 响 应 时 间 增 加 的 风险 。 

这 个 问题 的 解决 方案 之 一 是 减少 连接 操作 中 表 的 数量 。 一 些 研究 人 员 ， 如 [ Deutsch 
et al. 1999] 和 [ Shanmugasundaram et al. 1999 ] ， 就 是 采用 这 种 思路 提出 了 各 种 使 用 DTD 
来 生成 图 表 的 方法 。 虽 然 DTD 对 于 这 些 技术 是 必 不 可 少 的 ， 但 终端 用 户 不 一 定 必 须 描述 
DTD, [Klettke et al. 2001] 中 提出 了 基于 DTD, XML 元 素 的 发 生 次 数 和 查询 频率 的 对 象 关 
系数 据 库 (Object Relational Database, ORDB) 辅助 图 表 生 成 技术 。 然 而 ， 这 些 方法 并 没 
有 考虑 分 离 表 的 效率 。 

此 外 ，DTD 缺乏 足够 多 的 数据 类 型 信息 以 确定 某 个 元 素 的 子 元 素 的 最 大 出 现 次 数 ， 
为 DTD 的 主要 目的 不 是 描述 数据 库 模 式 ， 因 此 ，DTD 不 足以 产生 有 效 的 数据 库 模 式 。 也 
就 是 说 ， 即 使 从 相同 的 DTD 获得 的 XML 数据 也 会 变 得 多 样 化 ， 通 常 通过 这 样 的 XML 数据 
确定 的 数据 库 模 式 也 不 一 定 是 有 效 的 。 

另外 ，XML Schema 的 表达 能 力 高 于 DTD [ XML Schema 2014 ] ， 并 且 包 含 了 太 多 适 
用 于 数据 库 模 式 生成 的 信息 。 所 以 这 种 包含 信息 的 数据 库 模 式 生 成 的 技术 似乎 大 有 可 为 。 
IRT, XML Schema 和 DTD 一 样 也 很 难 被 终端 用 户 直接 定义 。 

笔者 也 想 出 了 一 个 利用 统计 分 析 生 成 数据 库 模 式 的 技术 [Ishikawa et al. 2007] ， 以 便 
对 XML 文档 进行 处 理 ， 相 比 处 理 查询 标准 化 〈 即 基线 方法 ) XML Schema 和 显示 技术 ， 它 
可 以 更 高 效 地 利用 表 划 分 。 

(d) 基于 结构 的 分 类 和 聚 类 

作为 基于 XML 数据 模式 的 分 类 ，XRules 使 用 树 结构 挖掘 [Zaki et al. 2003]。 此 外 ， 
一 些 研 究 例如 [Chawathe 1999] 和 [Dalamagas et al. 2004] 基于 树 结构 之 间 的 编辑 距离 ， 
定义 并 使 用 了 XML 数据 的 相似 性 ， 以 便 聚 类 XML 数据 。XProj [ Aggarwal et al. 2007] 基 
于 关联 执行 聚 类 规则 挖掘 系列 数据 。 男 一 个 方法 来 自 [ Harazaki et al. 2011] 的 定义 并 使 用 
T XML 路 径 作 为 元 素 有 序 集 的 相似 性 以 集群 XML 数据 。 


13.1.3 XML 内 容 挖掘 


在 本 节 中 ， 我 们 将 对 XML 数据 的 内 容 挖 掘进 行 概述 。XML 内 容 挖掘 是 一 个 类 似 于 
Web 内 容 挖掘 和 一 般 文本 挖掘 的 任务 ， 因 为 XML 内 容 挖掘 主 要 针对 值 ( 即 字符 串 ) ， 同 时 
也 需要 注意 围绕 值 的 标签 的 结构 ， 因 此 它 不 同 于 文本 挖掘 ， 而 是 专注 于 值 本 身 。 

XML 内 容 挖掘 可 以 被 进一步 分 类 为 内 容 分 析 和 结构 说 明 。 另 外 ， 压 缩 XML 数据 和 观 
察 XML 数据 的 结构 和 内 容 ， 也 将 在 这 里 进行 详 述 。 

(1) 内 容 分 析 

在 分 类 XML 文档 的 DTD 文件 时 ， 如 果 DTD 是 预先 已 知 的 ， 则 可 以 缩小 搜索 空间 只 
虑 符合 此 类 的 DTD。 如 果 DTD 彼此 相似 ， 对 应 元 素 的 值 的 集合 相似 性 也 很 高 ， 因 此 ， 在 
对 XML 文档 进行 聚 类 时 ， 也 可 以 使 用 DTD 的 相似 性 来 减少 搜索 空间 ， 而 且 可 以 使 用 相似 
性 来 发 现 DTD 的 同 义 标签 内 容 。 另 一 方面 ， 一 词 多 义 的 值 可 能 会 引起 问题 。 在 这 种 情况 
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下 ， 预 期 标签 周围 的 值 能 够 有 助 于 消除 歧义 。 

(2) 结构 说 明 

如 果 具 有 不 同 DTD 的 XML 实例 被 分 配 到 同一 个 集群 ， 它 将 会 导致 在 这 些 DTD 之 间 的 
语义 相关 性 的 发 现 。 反 过 来 ， 如 果 具 有 相同 DTD 的 XML 实例 被 分 配 到 不 同 的 集群 ， 则 有 
必要 怀疑 DTD 的 标签 的 多 义 性 的 存在 。 作 为 XML 内 容 挖掘 的 工具 ， 用 于 XML 数据 的 查询 
语言 如 XQuery [ XQuery 2014] 就 变 得 尤为 重要 。 

(3) XML 数据 压缩 

由 于 XML 数据 是 自 描 述 性 的 ， 因 此 它们 在 本 质 上 是 元 余 的 。 虽 然 元 余 在 某 些 方面 可 
以 是 一 个 优势 ， 但 是 它 对 通过 网 络 进行 XML 数据 存储 和 交换 的 性 能 却 有 影响 。 因 此 ， 很 
多 压缩 XML 数据 的 技术 有 效 地 使 用 XML 的 结构 和 内 容 进 行 数 据 研究 。 一 般 来 说 ， 处 理 速 
度 、 压 缩 比 和 可 道 性 被 认为 是 压缩 算法 的 重要 指标 。 

此 外 ， 必 须 考虑 是 否 允 许 查 询 压 缩 XML 数据 。 根 据 是 否 允 许 的 不 同 ，XML 数据 压缩 
方法 大 致 可 分 为 两 组 。 前 者 包括 XGrind [Tolani et al. 2002 ], XPRESS [Min et al. 2003] 以 
及 [Ishikawa et al. 2001] 所 介绍 的 系统 ， 后 者 包括 XMill [ liefke et al. 2000 ] 。 

这 里 ， 从 允许 查询 的 系统 数据 的 观点 来 看 ， 笔 者 和 Yokiyama 研究 的 系统 更 加 有 效 。 
该 系统 使 用 与 赫 夫 曼 编 码 类 似 的 方法 ， 即 对 标签 的 频率 进行 计数 ， 并 且 按 照 升序 对 标签 的 
频率 进行 排序 。 首 先 ， 将 最 短 的 代码 被 分 配给 具有 最 高 频率 的 标签 ， 接 下 来 ， 第 二 短 的 代 
码 被 分 配给 具有 的 第 二 高 频率 的 标签 ， 直 到 分 配 完 所 有 标记 的 代码 ， 其 中 ，XML 内 容 
( 即 值 ) 本 身 不 被 编码 ， 通 过 这 种 方式 压缩 的 XML 数据 仍然 是 原始 的 XML 数据 。 因 此 ， 
只 需要 通过 使 用 现 有 的 XML 工具 在 原始 标签 和 编码 标签 之 间 进 行 翻译 ， 并 检查 条 件 值 就 
可 以 在 不 解压 压缩 数据 的 情况 下 完成 对 压缩 的 XML 的 透明 访问 。XGrind 也 使 用 赫 夫 曼 编 
码 来 压缩 XML 数据 ， 并 保留 结构 的 原始 XML 数据 。 

(4) XML 数据 的 自动 生成 

一 旦 积累 大 量 的 XML 数据 ， 类 似 于 对 服务 或 系统 的 可 扩展 性 的 质量 评估 这 样 的 数据 
将 会 是 很 有 价值 的 。 然 而 ， 实 际 上 很 难 获 得 对 性 能 进行 分 析 时 所 需要 的 各 种 实际 数据 ， 
此 ， 合 成 XML 数据 或 进行 人 工 数据 生成 似乎 有 希望 作为 这 个 问题 的 解决 方案 。 

人 工 数据 的 生成 方法 大 致 可 以 分 为 两 种 : 

e 生成 XML 数据 ， 以 符合 用 户 指 定 的 数据 结构 。 例 如 ，xmlgen [ Aboulnaga et al. 
2001], ToXgene [ Barbosa et al. 2002] 和 Cohen [ Cohen 2008] 等 人 的 方法 都 包括 在 这 个 类 
别 中 。 但 是 ， 可 以 指定 的 结构 是 固定 的 或 有 限制 性 的 一 些 系 统 。 

e 生成 XML 数据 ， 以 便 反 映 实际 数据 的 统计 特征 。 例 如 ，XBeGene [ Harazaki et al. 
2011], 分 析 了 真实 数据 输入 、 提 取 结 构 和 统计 特征 (例如 ， 元素 和 值 ) ， 并 且 生 成 任意 
大 小 的 数据 。XBeGene 使 用 DataGuides 表示 提取 的 结构 。 此 外 ，XBeGene 还 可 以 生成 由 用 
户 指定 的 查询 数据 。 


13.2 挖掘 更 普遍 的 结构 


现在 阐述 比 XML 更 通用 的 树 结构 和 图 结构 的 挖 气 技术 。 
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(1) 树 结构 挖掘 

在 这 里 ， 根 据 Zaki 的 工作 [Zaki 2002] ， 我 们 将 定义 树 结构 的 挖掘 及 其 相关 的 概念 ， 
具体 算法 后 面 还 将 阐述 。 

(定义 ) 频繁 树 挖掘 

。 当 给 定 树 数据 集 D 和 最 小 支持 minSup 时 ， 频 繁 树 挖掘 发 现 的 包括 在 树 (交易 ) TD 
的 每 个 元 素 的 支持 (在 D 中 的 频率 ) 大 于 或 等 于 最 小 支持 度 minSup。 由 个 分 支 组 成 的 
一 组 树 s 表示 FF。 

(定义 ) 范围 

。 仿 树 的 根 节点 为 节点 n,， 树 中 最 右边 的 节点 是 n,。 然 后 ， 节 点 n 的 范围 由 [1,7] 
表示 。 

。 作用 域 列 表 是 一 个 列表 ， 其 元 素 是 树 中 的 一 个 节点 对 及 其 对 应 的 范围 。 

(定义 ) 前 缀 

。 树 的 前 级 表示 的 是 以 前 序 方式 遍历 树 的 叶 节 点 后 所 得 到 的 标签 序列 。 这 里 ， 回 济 
( 即 返回 ) 给 父 节点 的 值 用 -1 表示 。 例 如, 树 7 及 其 前 级 如 图 13. 4a 所 示 。 每 个 节点 都 
被 添加 在 范围 内 。 

(定义 ) WARIRI 

。 树 s 包含 在 树 t 中 ， 意 味 着 的 所 有 节点 也 是 1 的 节点 ， 如 果 在 1 中 ,是 nn 的 祖先 ， 
那么 在 s Pin, ten, 的 祖先 ， 即 ， 对 于 s 的 所 有 分 支 ， 有 (n,，n,)。 在 这 种 情况 下 , Bs 
是 树 t 的 舱 入 式 部 分 树 。 从 现在 开始 ， 它 被 简称 为 部 分 树 。 

例如 ， 树 了 的 部 分 树 5, 如 图 13. 4b 所 示 。 


N3[3,3] S1: 前 缀 =11 -1 2 -1 
ie 
epee i a ae ae [ 权 文 持 =2 
T: 前 级 =0 13 1-12-1-12-1-12-l 匹配 标签 -0134 1351 
a) 前 绥 b) 部 分 树 


图 13.4 ”前 级 和 部 分 树 


(定义 ) SRP], 

© 如 果 两 个 关于 的 部 分 树 铸 和 了 到 同一 个 节点 (k-1) 具有 共同 的 前 级 PP， 那么 
和 了 成 为 等 价 类 的 成 员 。 这 种 情况 下 的 等 价 类 由 [P], 表 示 。 

。 前 级 ( 即 部 分 树 ) 是 通过 添加 元 素 (x, i) 创建 的 ， 这 个 给 予 位 置 i 的 标签 x， 称 
H Po 

等 价 类 和 部 分 树 的 连接 ( x ) 操作 的 示例 如 图 13.5 所 示 。 此 外 ,连接 (N) 操作 
的 示例 范围 列表 如 图 13. 6 所 示 。 

现在 ， 我 们 将 介绍 通过 这 些 概念 发 现 频繁 树 的 算法 。 
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前 级 : 12 
元 素 : (3,1)(4,0) 


cb eee eee earn f HR: 12 =1:4 
TER: (4,0)(4,1) 

AAR: 123 

TGR: (3,1)(3,2)(4,0) 


图 13.5 等 价 类 和 部 分 树 的 连接 


前 级 = 人 Hae} 
元 素 : (1,-1)(2,-1)G,-1)(4,-1) TER: (2,0)(4,0) 


© © © © ? ? 
in 四 


0,0,[1,1] | 0,0,[3,3] 
1,1,[2,2] | 1,1,[3,3] 


2,0,[2,2] 2,0,[7,7] 


2,0,[5,5] | 2,4,[7,7] 
2,4,[5,5] 


图 13.6 范围 列表 的 连接 


(算法 ) TreeMine (D, minSup) 

1. 所 有 频繁 树 的 部 分 1 i F; 

2. 所 有 属于 [P] 的 频繁 树 的 部 分 2 记 为 F 

3. 对 于 所 有 [P] ,执行 下 面 的 算法 | 

4. Enumerate_Frequent_Subtree ([P],) ;} ; 

(算法 ) Enumerate_Frequent_Subtree( [P] ) 

1. 对 于 属于 [P] 的 每 个 元 素 (x, i) ,执行 以 下 计算 | 
2. [P,] Ø; 
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对 于 属于 [P] 的 每 个 元 素 (*，7) ， 执 行 以 下 计算 | 
. R| (x,i) x (yj) t3 
. L(R)=|L(x) N L(y) }; 
. 如 果 (rÆ RPH), MA 
oP laa Poa rats 
. Enumerate_Frequent_Subtree([P,]) ;} ; 

作为 XML 挖掘 的 应 用 ，Zaki 对 Web 访问 日 志 应 用 了 一 种 树 结 构 挖 掘 技术 。 这 被 称 为 
XML 访问 日 志 挖掘 。 他 通过 挖掘 访问 日 志 结 构 对 以 下 三 个 数据 进行 了 比较 。 

(i) 访问 页 集 

(ii) 访问 页 序列 

(iii) 访问 页 树 

他 观察 到 ， 虽 然 处 理 时 间 按 顺序 (i) < (ii) < (iii) BASS, 但 获得 的 信息 量 也 以 相同 的 
顺序 递增 。 

此 外 ，Zaki 和 其 他 人 扩展 了 TreeMiner， 为 了 更 好 地 研究 频繁 XML 树 ， 他 们 为 每 个 指 
定 的 单独 的 最 小 支持 类 创建 了 一 个 名 为 XRules 的 XML 数据 结构 分 类 器 [ Zaki et al. 2003 ] 。 

(2) 图 挖掘 

到 目前 为 止 ， 我 们 对 用 XML 表示 的 半 结 构 化 数据 〈 即 有 序 树 ) 的 挖掘 已 经 介绍 得 相 
当 清 晰 。 随 着 社交 媒体 的 传播 ， 人 研究 人 员 也 越 来 越 重视 挖掘 图 的 研究 。 

首先 ， 是 问题 ( 即 ， 频 繁 图 挖掘 ) 的 定义 。 

(定义 ) 频繁 图 的 挖掘 

当 给 定 图 的 集合 D 和 最 小 支持 minSup 时 ， 发 现 与 图 ; (BN, 事务 ) 的 部 分 图 同 构 的 图 
形 g， 其 中 也 的 每 个 元 素 的 支 集 (M, MKD) 大 于 或 等 于 minSup， 被 称 为 频繁 图 的 挖 
据 。 同 构图 的 概念 定义 如 下 。 

(定义 ) 同 构图 

如 果 两 个 单独 构成 的 图 ， 图 中 两 个 节点 的 邻接 关系 保持 映射 并且 两 组 节点 之 间 也 存 
在 一 对 一 映射 ,那么 就 说 两 个 图 是 彼此 同 构 的 。 

这 里 有 个 问题 ， 特 别 是 所 谓 的 同 构 部 分 图 问题 ,决定 一 个 图 和 男 一 个 图 的 部 分 (或 
F) 图 同 构 是 已 知 的 就 是 所 谓 的 NP 完全 问题 ， 它 是 不 能 在 多 项 式 内 求解 的 。 

图 挖掘 算法 使 用 Apriori 原理 。 这 些 原 理 包 括 FSG [ Kuramochi et al.2001 ] 和 IAGM 
[Inokuchi et al. 2000 ]。 这 里 将 介绍 FSG, 

基本 上 ， 该 算法 具有 与 Apriori 算法 相同 的 结构 ， 其 算法 如 下 : 

(算法 ) FSG (D, o) 

1. Pras AD IFA i F'; 

2. 所 有 频繁 图 D 的 子 图 2 记 为 让; 

3. 大 二 3; 

4. while Ft 1# Ø | 
5. C4 fsg -gen( F’"'); 
6 
7 


.对 于 C, 中 的 每 个 单元 g 执行 下 面 的 操作 | 
g". count<0 ; 
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8. XF DE t 的 每 个 变换 ， 执 行 下 面 的 操作 | 
9. 如果 g* 包 含 在 +t 中 ,， 则 g". count — g". count +1;|;); 
10. Fre— |g"lg". count > =minSup} ; 
ll. kok 415}; 
12. return F', F, «+, F’?; 
HF, fsg-gen(F,) 的 作用 是 从 部 分 图 FE ee AL C,,,。 因 此 ， 一 般 具 有 
(k-1) 部 分 的 频繁 大 局 部 图 被 结合 以 产生 C, ,,。 公 共 部 分 图 在 这 种 情况 下 称 为 核心 。 在 
集合 的 情况 下 只 有 一 个 候选 项 目 是 从 两 个 (上 -1) 频率 项 中 产生 的 。 但 是 在 图 的 情况 
下 ， 两 个 或 更 多 的 候选 图 形 如 下 。 
(i) 具有 相同 标签 的 节点 是 分 开 的 〈 见 图 13. 7a) 。 
Gi) 核心 本 身 具有 自 构 图 ( 见 图 13.7b) 。 
(Gi) 其 具有 两 个 或 更 多 个 核心 (SLA 13.7c) 。 


AA- WY 

A- AHg 
SE E) DAS 
t.t) 411 


9) 
图 13.7 候选 图 的 生成 


TID 列表 用 于 枚 举 候 选 图 形 ， 分 区 算法 是 对 Apriori 算法 的 一 个 扩展 。Kuramochi 等 人 
在 实验 中 使 用 化 合 物 研究 和 评估 了 上 述 算法 ， 并 且 已 经 确定 即便 在 较 小 的 文 持 下 (10% 或 
更 少 ) 仍然 可 以 保持 较 高 的 速度 来 发 现 频繁 图 。 
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13.3 ”多 媒体 数据 挖掘 


传统 意义 上 ， 信 息 系统 中 处 理 的 大 多 数 数 据 都 是 结构 化 的 。 然 而 由 于 Web 的 发 展 ， 
不 仅 是 文本 和 图 像 ， 视 频 和 音频 也 越 来 越 受 到 欢迎 。 除 了 Flickr 和 YouTube 之 外 ，Twitter 
和 Facebook 也 启用 了 用 户 在 其 文章 中 包含 照片 和 视频 的 功能 。 因 此 ， 人 们 自然 也 会 希望 像 
文本 、 图 像 和 视频 这 些 所 谓 的 多 媒体 数据 也 可 以 像 数据 库 中 的 结构 化 数据 那样 被 搜索 。 文 
本 搜索 在 信息 检索 领域 已 被 研究 多 年 ， 并 在 网 页 搜索 中 达到 了 实用 水 平 。 类 似 地 ， 通 过 用 
户 指 定 的 搜索 项 来 搜索 图 像 和 视频 的 服务 也 开始 在 网 络 上 逐渐 流行 。 但是， 用 户 很 难 通过 
他 们 所 描述 的 内 容 来 对 多 媒体 数据 的 特征 进行 检索 ， 所 以 ,作为 专门 用 于 多 媒体 挖掘 的 技 
AR, 分 类 和 聚 类 是 搜索 的 基础 。 

与 多 媒体 图 像 相 关 的 研究 与 开发 已 经 相当 成 熟 。 以 图 像 搜 索 为 例 ， 下 面 将 解释 一 些 媒 
体 搜 索 方法 。 作 为 一 个 搜索 图 像 应 用 ， 可 以 使 用 从 中 提取 的 锚 文 本 ( 即 ， 到 图 像 的 链接 上 
的 文本 ) 进行 搜索 。 这 种 方法 是 目前 大 多 数 Web 搜索 应 用 的 ， 然 而 ， 仅 和 赁 这 样 的 项 还 不 
能 完全 描述 所 有 的 图 像 。 基 于 内 容 的 图 像 检 索 长 期 以 来 都 是 对 图 像 特 征 进行 的 研究 ， 如 下 
所 述 。 基 于 内 容 的 检索 使 用 的 图 像 的 主要 特征 如 下 : 

。 颜色 直方 图 : 此 功能 是 最 简单 和 最 容易 处 理 的 。 然 而 ， 它 不 适合 区 分 图 像 的 不 同 
纹理 或 成 分 。 

。 小 波 : 这 个 功能 可 以 表示 颜色 、 纹 理 和 图 像 的 组 成 。 然 而 ， 它 不 适用 于 区 分 包含 
不 同 尺 寸 和 位 置 的 图 像 。 

。 两 个 或 多 个 特征 的 组 合 ( 例如， 颜色 直 方 图 、 颜 色 布局 、 边 缘 直方 图 和 CEDDS ) 
[ Van Leuken et al. 2009 ] ， 这 种 方法 被 广泛 使 用 。 每 种 特征 的 距离 测度 及 将 这 些 特征 结合 
起 来 的 方法 都 必须 慎重 选择 。 

此 外 ， 除 了 基于 内 容 的 图 像 检 索 之 外 ， 基 础 挖掘 技术 的 应 用 如 下 : 

。 图 像 关联 分 析 

关联 分 析 适 用 于 两 个 或 更 多 个 的 图 像 所 包含 的 对 象 间 特 征 之 间 的 关系 。 在 后 一 种 情况 
下 ， 可 能 需要 进一步 考虑 空间 关系 (例如 ， 上 和 下 ， 左 和 右 ， 包含 关 系 )。 

。 图 像 分 类 

关于 目标 特征 的 分 类 前 面 已 经 了 解 。 如 果 给 出 新 的 图 像 ， 它 们 可 以 帮助 将 其 分 类 到 现 
有 的 类 。 其 在 图 像 识 别 和 相关 的 科学 研究 中 已 经 有 了 广泛 的 应 用 。 

。 图 像 聚 类 

现在 ， 网 络 上 有 大 量 的 图 像 信息 。 在 显示 搜索 结果 时 ， 不 仅 可 以 呈现 搜索 结果 所 需 的 
结果 图 像 ， 也 可 以 同时 呈现 相似 的 图 像 。 在 后 一 种 情况 下 ， 需 要 组 合 各 种 信息 完成 图 像 ， 
如 图 像 的 位 置 、 周 围 的 文本 、 在 原始 页 面 中 的 链接 ， 以 及 图 像 的 特征 来 提高 聚 类 的 准 
确 性 。 

然而 ， 如 果 技 术 仅 仅 是 依赖 于 像 使 用 图 像 特征 这 样 的 应 用 域 ， 则 搜索 结果 的 准确 性 就 


”颜色 和 边缘 的 方向 性 描述 符 (Color and Edge Direction Descriptor CEDD) : 混合 在 直方 图 中 的 图 像 的 颜色 
和 纹理 信息 。 
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会 有 很 大 的 局 限 性 。 换 句 话 说， 因为 它 本 质 上 是 对 用 户 所 表达 的 图 像 的 意图 的 搜索 ， 系 统 
不 仅 需 要 考虑 图 像 的 原始 特征 ， 还 需要 正确 地 解读 用 户 的 意图 。 

越 来 越 多 的 网 站 开始 允许 用 户 为 其 搜索 的 图 像 添 加 标签 。 进 一 步 ， 网 络 上 的 图 像 对 元 
数据 ( 即 Exif 标签 ) 和 描述 拍摄 情况 的 位 置信 息 ( 即 地 理 标签 ) 也 越 来 越 重 视 。 一 方面 ， 
仅仅 依靠 从 锚 文中 收集 到 的 搜索 项 来 进行 索引 已 显得 力不从心 ， 另 一 方面 ， 标 签 用 户 已 经 
可 以 随意 地 添加 包括 多 媒体 在 内 的 社交 数据 了 ， 这 种 数据 一 般 称 为 社交 标签 。 这 样 的 社交 
标签 可 以 表示 社交 数据 的 某 些 含义 。 社 交 标 签 和 元 数据 也 可 以 用 于 图 像 检索 、 岁 像 聚 类 和 
图 像 分 类 。 

下 面 我 们 会 讲 到 如 何 通过 使 用 元 数据 对 地 图 上 的 一 组 照片 进行 数据 挖掘 ， 例 如 地 理 标 
签 ( 即 ， 位 置信 息 ) exif 数据 (例如 ， 照 相机 方向 、 焦 距 ) 和 社交 标签 (例如 ， 地 标 名 
称 ) 。 

Shirai 等 人 [Shirai et al. 2013] 首先 利用 照片 的 位 置信 息 ， 在 照片 指定 的 地 理 空间 所 
包含 的 每 单位 网 格 上 计算 密度 ， 接 下 来 使 用 DBSCAN 方法 ， 将 彼此 相 邻 的 网 格 聚 集 ， 其 密 
度 高 于 指定 的 密度 阔 值 并 计算 每 个 群集 的 地 理 质 心 。 然 后 他 们 根据 焦距 和 相机 方向 计算 的 
角度 将 每 个 群集 包含 的 照片 分 类 为 向 内 的 照片 ， 其 中 包含 质心 和 其 视角 不 向 外 的 照片 。 通 
过 从 每 个 聚 类 的 质心 扩展 一 个 区 域 ， 如 果 数 目 向 内 的 照片 超过 向 外 的 照片 ， 他 们 在 其 相交 
的 部 分 估计 面积 。 基 于 包含 的 网 格 ， 他 们 已 经 按 佑 算 的 面积 成 功 地 检测 到 轮廓 的 地 标 
( 即 ， 感 兴趣 的 地 点 ) 。 

研究 人 员 首先 检索 了 一 组 来 自 Flickr 的 包含 指定 搜索 词 ( 例 如， 海滩) 的 照片 。 使 用 
这 样 的 位 置信 息 照 片 ， 他 们 检测 出 地 图 上 照片 密度 高 的 网 格 ， 然 后 利用 将 这 样 的 网 格 披 此 
相 邻 连接 的 算法 并 沿 着 连接 的 网 格 绘制 线条 。 通 过 使 用 该 算法 ， 他 们 已 成 功 地 检测 出 了 真 
正 的 海岸 线 。 

除了 图 像 之 外 ， 可 以 想到 的 搜索 、 聚 类 和 分 类 的 实时 流 媒体 数据 还 有 视频 和 音频 。 但 
是 ， 视 频 流 不 仅仅 是 帧 序列 CBD, 静止 图 像 )， 还 包括 称 为 镜头 的 单元 的 帧 的 相干 序列 。 
基于 内 容 视频 的 检索 将 通过 笔者 同 他 人 的 研究 [ Ishikawa et al. 1999] 来 解释 。 在 检索 之 
前 ， 系 统 将 分 割 视频 流 ( 即 ，MPEG -2 视频 ) 转换 成 镜头 序列 ， 提 取代 表 帧 ， 并 使 用 这 
些 有 代表 的 镜头 的 缩 略 图 。 在 检索 中 ， 系 统 允 许 用 户 过 滤 一 组 视频 ， 并 人 允许 用 户 进一步 通 
过 点 击 作为 过 滤 结 果 的 平 铺 视 频 的 缩 略 图 来 获得 所 需 的 照片 。 

这 个 系统 使 用 亮度 直方 图 以 便 检 测 镜头 与 镜头 之 间 的 变化 。 通 过 检测 框架 内 移动 对 象 
的 区 域 以 及 其 移动 方向 获得 区 域 宏 观 块 的 运动 矢量 。 同 时 ， 需 要 进行 必要 的 调整 摄影 技巧 
(例如 ， 播 摄 、 倾 斜 和 变焦 ) 。 然 后 ， 将 移动 物体 的 区 域 分 割 成 更 小 的 颜色 区 域 和 不 同 的 
代表 色 ， 计 算 每 个 区 域 的 质心 和 面积 大 小 ， 将 这 些 移动 对 象 的 特性 存储 在 与 之 关联 的 专用 
数据 库 中 。 系 统 允许 用 户 通 过 将 彩色 和 矩形 组 合 在 一 起 指定 形状 和 颜色 的 方式 来 获得 作为 运 
动 的 样本 对 象 ， 系 统 通过 用 户 界面 图 形 的 运动 方向 〈 见 图 13.8) 检索 包含 用 户 指 定 样 本 
的 镜头 ， 使 用 四 又 树 作为 分 层 多 维 索引 。 因 此 系统 将 运动 方向 分 类 为 8 个 〈 例 如， 上 ， 
下 ,， 右 ， 左 ， 右 上 和 左下 等 ) 并 建立 对 应 方向 上 的 8 个 四 叉 树 。 最 后 系统 计算 和 抢 形 之 间 的 
颜色 距离 的 样本 和 每 个 元 素 的 运动 对 象 的 集合 ， 通 过 索引 计算 这 些 移动 对 象 的 总 和 ， 并 按 
照 升 序 排列 呈现 出 一 组 相对 应 的 移动 对 象 的 镜头 。 

此 外 ， 作 为 元 数据 ， 也 可 以 使 用 MPEG -7 作为 一 般 框 架 ， 使 用 户 能 够 描述 视频 搜索 
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所 需 的 各 种 功能 。 
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13.8 ”基于 内 容 的 影片 检索 


13.4 流 数据 挖掘 


流 是 一 种 时 间 序 列 数据 ， 它 的 来 源 诸如 电话 网 络 、 计 算 机 网 络 、 传 感 器 网 络 和 信息 系 
PENE 分 销 和 制造 业 ) 。 大 多 数 流 数 据 是 巨大 的 ， 变 化 的 和 连续 的 。 如 前 
所 述 ， 社 交 数 据 ， 特 别 是 Twitter 可 以 看 作 是 一 种 流 数据 。 


13.4.1 基本 技术 


由 于 大 多 数 流 数据 是 在 短 时 间 内 连续 地 生成 并 馈送 到 信息 系统 的 ， 因 此 ， 通 常 在 存在 
资源 限制 的 环境 中 ， 如 果 执 行 流 挖掘 会 存在 超过 系统 容量 的 很 大 风险 。 

换 句 话说 ， 如 果 可 以 适当 地 减少 原始 流 数 据 ， 通 过 从 数据 中 选择 一 部 分 或 将 数据 变换 
成 男 一 种 形式 进行 挖掘 ， 那 么 以 现在 的 技术 是 可 以 实现 的 。 以 下 技术 就 可 以 达到 这 些 目 的 
[ Gaber et al. 2005 | 。 

。 采样 

一 般 来 说 ,采样 技术 就 是 从 原始 数据 中 随机 选择 部 分 并 保留 原始 数据 的 特性 。 流 数据 
采样 时 ， 在 整个 流 数 据 是 未 知 的 情况 下 ， 必 须 采取 必要 的 措施 来 防止 最 后 得 到 的 流 数据 发 
生变 化 。 

采样 技术 需要 用 到 各 种 技术 ， 其 中 包括 到 达 频 率 的 估计 、 分 类 (a, ARR), R 
类 (例如 , -均值 和 对 于 流 数 据 的 查询 处 理 ， 还 有 表达 采样 误差 的 采样 率 的 函数 。 值 
得 注意 的 是 采样 不 适合 发 现 异常 值 。 

。 草图 
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草图 是 在 值 的 基础 上 对 流 数 据 进 行 采 样 并 创建 整个 数据 的 摘要 ， 这 样 的 采样 技术 被 称 
为 垂直 采样 。 男 一 方面 ， 在 时 间 的 基础 上 对 流 数据 进行 采样 则 被 称 为 水 平 采 样 。 革 图 可 以 
用 于 处 理 聚 合 查询 以 查询 两 个 或 更 多 的 流 。 在 这 种 情况 下 ， 重 要 的 是 保证 处 理 结果 的 正 
确 性 。 

。 直方 图 

以 直方 图 、 频 率 矩 和 小 波 作为 数据 来 表示 流 数据 的 概要 的 结构 。 直 方 图 表示 每 个 值 的 
频率 。 阶 频 率 矩 是 每 个 值 的 频率 的 大 次 过 的 总 和 。 从 而 ， 如 果 丰 =0，1，2 或 者 w ， 则 它 
表示 的 数目 分 别 是 本 征 值 、 总 频率 、 方 差 或 最 大 值 。 小 小将 原始 流 数 据 展开 为 独立 基 消 数 
的 总 和 ， 而 原始 数据 则 可 作为 这 些 函 数 的 系数 。 


。 RE 
聚集 字面 上 表达 的 是 流 数据 的 平均 值 和 方差 的 数字 特征 ， 它 是 统计 概念 。 
。 滑动 窗口 


使 用 滑动 窗口 可 以 对 最 新 数据 相 比 先 前 的 数据 给 予 更 多 权重 。 窗 口 的 大 小 表示 可 以 回 
顾 历 史 的 长 度 。 

© AOG (算法 输出 密度 ) 

AOG 用 于 控制 在 存储 器 和 吞吐 量 上 具有 限制 的 环境 下 计算 结果 的 输出 速率 。 例 如 ， 
如 果 可 用 的 内 存 正 在 变 小 ， 迄 今 为 止 获得 的 信息 将 被 合并 。 

以 上 是 流 挖 掘 中 经 常 使 用 的 基本 技术 。 


13.4.2 ”数据 挖掘 任务 


下 面 ， 从 基础 数据 挖掘 任务 ( 即 ， 聚 类 、 分 类 和 关联 分 析 ) 角度 来 看 流 数据 挖掘 
技术 。 

© KA 

聚 类 流 数 据 需要 通过 有 限 的 内 存 和 时 间 的 一 个 路 径 来 处 理 数 据 。 

STREAM [ Babcock et al. 2002] 是 基于 上 =- 中 心 的 聚 类 算法 ， 其 将 w 个 点 分 配给 与 它们 
最 近 的 个 中 心 。STREAM 使 聚 类 中 所 有 属于 该 集群 的 点 与 其 中 心 之 间 的 距离 的 平方 和 最 
小 化 ，V 个 点 被 划分 为 团 (bucket) ， 每 个 团 包 括 普 个 点 ， 并 且 对 每 个 团 执行 聚 类 ， 团 的 
大 小 由 可 用 存储 器 的 大 小 确定 ， 然 后 只 保留 集群 中 心 加 权 的 部 分 并 抛弃 其 他 点 ， 如 果 由 此 
获得 的 中 心 的 数量 超过 阔 值 ， 则 需要 对 它们 进一步 应 用 聚 类 ， 以 找到 一 个 新 的 中 心 。 

CluStream [ Aggarwal et al. 2003] 结合 了 在 线 聚 类 ( 即 ， 微 聚 类 ) 和 离线 聚 类 ( 即 ， 
ERA) 。 微 集群 通过 由 时 间 戳 扩展 的 BIRCH 中 的 CR 来 表示 。 在 线 聚 类 首先 维持 g 个 微 
集群 ， 使 它们 进入 主 存储 器 ， 每 个 集群 都 有 自己 的 边界 ， 如 果 有 新 的 数据 进入 一 个 集群 的 
边界 内 ， 它 们 将 被 分 配 到 这 样 的 集群 中 ， 否 则 ， 将 产生 新 的 集群 数据 添加 到 集群 。 为 了 确 
保 所 有 的 集群 适合 主 内 存 ， 宏 集群 可 以 根据 一 定 的 标准 删除 已 存在 的 集群 ， 或 者 将 两 个 现 
有 集群 合并 为 一 个 。 

宏 聚 类 人 允许 用 户 分 析 聚 类 的 演变 。 这 里 假设 时 间 范 围 是 流 数据 的 序列 。 用 户 可 以 指定 
hh 和 作为 时 间 范 围 的 长 度 和 数量 宏 集群 。 系 统 通过 计算 时 间 范 围 从 时 间 ;处 的 CF 减 去 在 
HFE (¢-h) 的 CF， 并 重新 聚 类 微 群集 作为 单独 数据 以 获得 左 宏 ( 即 ， 更 高 级 别 ) 集群 。 


。 分 类 


156 社交 大 数据 挖 握 


流 的 分 类 必须 同时 考虑 以 下 两 种 情况 ,一 种 情况 是 可 用 内 存 通常 不 足以 重新 扫描 所 有 
数据 ， 另 一 种 情况 是 模型 随时 间 变 化 〈 即 ， 发 生 概念 漂移 ) 。 

首先 ， 将 解释 Hoeffding 界 。Hoeffding 界 断 言 ， 给 定 精度 相关 参数 5， 基 于 样本 数据 
(N 项 ) 的 7 值 和 所 有 数据 中 真实 的 指标 > 之 间 的 误差 不 超过 下 述 公式 定义 的 参数 e 的 概 
率 为 (1-8): 

a 1 
R'ln 5 

2N 
其 中 , RÆPRF r RIRA. Aa, WMR r EE, M REL WR 是 信息 增益 ， 则 
RÆ log C, $ C 是 类 的 数量 。 

因此 ， 如 果 最 佳 和 次 优 指标 的 差异 大 于 es， 属 性 将 根据 前 者 来 选择 指数 。 

如 果 有 新 数据 到 达 ， 人 快速 决策 树 (Very Fast Decision Tree, VFDT) [ Domingos et 
al. 2000] 会 通过 使 用 当前 决策 树 和 分 类 数据 将 数据 存储 在 叶 中 。 如 果 有 任何 叶子 已 经 完 
全 累积 了 数据 ， 叶 子 将 被 扩展 为 基于 Hoeffding 约束 的 树 。 为 了 响应 概念 漂移 问题 ， 概 念 
适应 快速 决策 树 (Concept - adaptation Very Fast Decision Tree, CVFDT) [ Hulten et 
al. 2001] 修改 了 VFDT， 以 便 做 出 树 递 增 的 决定 。 此 外 ， 可 以 想象 的 是 ， 它 还 可 以 为 每 个 
流 数据 创建 一 个 分 类 器 并 且 针对 前 磊 个 分 类 器 进行 集成 学 习 。 

。 项 集 计 数 

因为 对 频繁 项 目 集 进行 计数 的 基本 技术 需要 扫描 所 有 数据 两 次 或 多 次 ， 所 以 它们 不 适 
用 于 流 数据 的 计数 。 在 流 数据 计数 中 ， 有 损 计 数 [ Manku et al. 2002] 允许 用 户 指 定 最 小 
支持 度 o 和 误差 界限 <。 所 有 项 目的 频率 了 (ARRO 都 可 以 被 列举 出 来 ， 它 们 连同 频率 
( 圆 整 数 ) 的 最 大 误差 d 被 一 并 放 在 项 目 频率 列表 中 。 流 被 分 成 团 ， 其 大 小 等 于 置顶 值 
(1/e)。 如 果 列 表 中 已 存在 项 目 ， 则 其 频率 将 增加 一 个 。 如 果 应 该 属于 团 的 项 目 被 添加 到 
列表 一 次 ， 其 频率 被 初始 化 为 1， 误 差 4 设 定 为 (5 -1)。 如 果 项 目 总 数 达 到 团 大 小 的 两 
倍 ， 将 从 列表 中 删除 频率 f < (4 - dg) 的 项 目 。 这 样 ， 通 过 算法 以 便 在 存储 器 中 维持 项 目 频 
率 列 表 的 大 小 。 

。 趋势 分 析 

流 数 据 可 以 通过 观察 诸如 长 期 趋势 、 重 复 、 季 节 变 化 和 随机 变化 等 元 素 的 变化 来 分 
析 。 简 单 的 检测 变化 的 方法 包括 移动 平均 。 这 种 方法 计算 平均 值 或 加 权 平 均值 ， 并 移动 该 
组 数据 。 移 动 平均 可 以 使 流 平滑 。 在 周期 性 重复 中 ， 发 现 循 环 本 和 刁 变 得 很 重要 。 

。 相似 性 搜索 

其 任务 是 ， 给 定 一 个 流 ， 搜 索 类 似 于 这 个 流 的 一 个 样本 。 它 在 确定 部 分 匹配 的 流 之 间 
寺 别 有 用 〈 见 图 13.9)。 然 而 ， 比 较 数据 的 尺寸 维度 (属性) 是 不 现实 的 ， 也 就 是 说 ， 需 
要 将 原始 数据 转换 为 一 组 小 于 原始 数据 的 特征 。 一 些 方法 (如 离散 传 里 时 变换 、 离 散 小 波 
变换 和 主要 成 分 分 析 ) 可 用 于 该 任务 。 尽 管 在 许多 情况 下 ， 根 据 以 上 特征 是 可 以 使 用 欧 氏 
距离 的 ， 但 还 是 要 适当 地 区 分 相应 的 部 分 (如 删除 不 足 的 部 分 )， 调 整 偏差 及 大 小 以 便 比 
较 更 多 的 流 数 据 。 
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图 13.9 流 的 部 分 匹配 
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关联 分 析 、 聚 类 和 分 类 。 此 外 ， 在 后 面 的 章节 中 ， 还 会 介绍 异常 值 检测 。 


14.1 关联 分 析 的 可 扩展 性 


通常 ， 作 为 基本 技术 的 并 行 技术 是 可 扩展 性 [Zaki 1999] 的 基础 。 基 于 是 否 在 处 理 器 
之 间 共 享 存储 器 的 不 同 ， 并 行 技术 可 以 分 为 两 种 : 共享 存储 器 的 方法 ， 一 般 称 为 共享 内 
存 ， 可 以 以 统一 的 方式 直接 访问 系统 的 所 有 存储 器 ， 因 此 编程 相对 简单 ， 但 是 由 于 数据 传 
输 对 总 线 带 宽 的 限制 ， 其 对 于 处 理 器 的 可 扩展 性 有 限 ; 每 个 处 理 器 具有 其 自身 的 存储 器 并 
且 不 与 其 他 处 理 需 共 享 存储 器 的 方法 ， 称 为 不 共享 内 存 ， 该 方法 需要 根据 单独 发 送 给 它们 
的 信息 来 访问 每 一 个 处 理 器 ， 因 此 ， 编 程 相对 复杂 ， 但 可 扩展 性 的 问题 可 以 很 直接 的 
解决 。 

14.1.1 不 共享 内 存 


首先 ， 将 描述 不 共享 存储 器 的 方法 。 

(1) 基于 Apriori 的 计数 分 布 

在 该 方法 中 ， 每 个 处 理 器 都 具有 可 以 构建 的 本 地 数据 库 。 通 过 划分 全 局 数据 库 
[ Agrawal et al. 1996] ， 创 建 一 个 哈 希 树 以 便 从 全 局 频繁 项 目 集 L_, 中 计数 候选 全 局 频繁 项 
集 C,。 每 个 处 理 右 根据 本 地 数据 库 计 数 支持 ,然后 与 其 他 人 交换 结果 ， 并 获得 全 局 支持 计 
数 。 每 个 处 理 器 以 并 行 的 方式 生成 C;,， 由 此 获得 LL ,。 重 复 这 个 过 程 ， 直 到 找到 所 有 频繁 
项 集 。 

(2) 基于 DHP 的 方法 

这 个 方法 建 有 散 列 表 ， 以 便 计算 1 号 项 集 的 本 地 支持 和 基于 2 号 项 集 的 DHP (动态 散 
列 和 修剪 ) [Park et al. 1995 ] 。 通 过 所 有 点 的 广播 (all -to -all broadcasting) ， 每 个 处 理 兢 
可 以 获得 1 号 项 集 的 全 局 支持 计数 。 对 于 2 号 项 集 ， 只 需 频 繁 地 与 散 列 表 中 的 条 目 进行 交 
换 ， 便 可 获得 2 号 项 集 的 全 局 支持 计数 。 此 后 ， 类 似 于 Apriori 算法 ， H La (k >2) 产 
生 C,。 

(3) 基于 P2P 分 区 的 方法 

笔者 及 笔者 同事 的 工作 [Ishikawa et al. 2004] 旨 在 通过 P2P (Peer to Peer， 对 等 ) 实 
现 大 规模 和 低 成 本 的 并 行 网 络 挖掘 。 这 种 方法 可 以 归 类 于 基于 分 区 的 无 共享 。 它 通过 分 区 
之 间 的 P2P 协议 交换 本 地 连接 的 处 理 器 之 间 的 本 地 项 集 ， 从 而 可 以 简化 控制 和 减少 网 络 
传输 。 

为 了 执行 负载 平衡 ， 将 等 级 视 为 每 个 节点 的 处 理 能 力 的 标签 。 考 虑 到 传输 延迟 的 影 
响 ， 从 与 前 一 个 节点 相 邻 的 节点 的 等 级 确定 节点 的 等 级 。 通 过 使 用 分 布 式 散 列表 ， 使 得 每 


个 节点 都 具有 处 理 其 相 邻 节点 信息 的 能 力 。 使 用 该 方法 可 以 计算 排名 ， 而 不 需要 中 央 服 务 
器 去 执行 负载 平衡 。 
14.1.2 共享 内 存 

这 里 将 解释 共享 存储 器 方法 。 

(1) Zaki 的 基于 Apriori 的 方法 

在 该 方法 中 [Zaki et al. 1997] ， 每 个 处 理 絮 都 有 自己 的 分 区 ， 其 份额 与 对 整个 数据 进 
行 逻辑 上 划分 后 的 相同 ， 并 且 共 享 候选 全 局 频繁 项 集 的 哈 希 树 ， 以 每 个 叶 节点 为 单位 锁定 
结构 用 于 同时 更 新 哈 希 树 。 每 个 处 理 器 以 其 逻辑 分 区 计算 频繁 项 集 的 支持 计数 。 

(2) 基于 DIC 的 方法 

这 种 方法 [Cheung et al. 1996] 将 bp 个 虚拟 分 区 分 配给 p MAE, (RI lSp. AT 
计算 每 个 分 区 的 局 部 计数 ， 今 m 是 项 集 的 大 小 ，m 维 空间 中 含有 /个 向 量 。 根 据 向 量 之 间 
的 距离 ， 执 行使 集群 间距 离 最 大 化 而 集群 内 距离 最 小 化 的 聚 类 ， 其 中 令 ARR. AW 
DIC 需要 同 构 分 区 ， 所 以 从 天 个 集群 中 的 每 一 个 中 选择 相同 数量 的 元 素 并 将 其 分 配给 每 个 
处 理 器 上 。 所 以 在 每 个 处 理 器 上 ， 会 产生 了 个 均匀 子 分 区 并 且 从 个 集群 中 的 每 一 个 选择 
相同 数量 的 元 素 并 分 配 到 子 分 区 。 


14.2 聚 类 可 扩展 性 的 方法 


聚 类 的 可 扩展 性 方法 包括 以 下 : 

。 引入 层次 结构 和 聚合 数据 结构 体 。 

。 使 用 随机 采样 。 

。 分 区 数据 并 使 用 数据 密度 。 

下 面 将 描述 分 层 方法 和 基于 密度 的 方法 ， 而 图 挖 所 也 可 以 作为 一 种 聚 类 离 群 值 的 检测 
方法 。 


14. 2.1 分 层 方法 


BIRCH [ Zhang et al.1996 ] 、CURE [ Guha et al.1998 ] 和 Chameleon [ Karypis et 
al. 1999] 所 描述 的 是 层次 聚 类 的 典型 变 体 算法 。 下 面 会 详 述 CURE 和 BIRCH, Mi Chame- 
leon 则 将 作为 一 种 基于 图 的 聚 类 方法 被 讲解 。 

(1) BIRCH 

BIRCH 引入 了 CF (Clustering Feature, RIFE) 树 的 概念 。BIRCH 执行 层次 使 用 
CF 树 进 行 聚 类 并 执行 所 构造 的 重建 聚 类 。CF 树 是 一 种 平衡 树 ， 其 每 个 节点 表示 一 个 聚 
类 。 节 点 存储 的 CF 值 表示 子 节点 的 特征 ， 即 子 集群 ( 见 图 14. 1) 。 

e CF 值 = (m, LS, SS) 

子 群 集 包 含 m 个 多 维 向 量 d， (i =1, 2, =, m)o LS 和 SS 分 别 表 示 向 量 和 与 向 量 的 
平方 和 。 可 以 通过 使 用 LS 和 SS 来 递增 地 计算 平均 值 ( 即 ， 簇 的 质心 ) 和 方差 。 这 些 值 也 
可 以 用 于 计算 集群 之 间 的 距离 。CF 树 的 非 叶 节 点 有 多 个 子 节点 ， 这 些 子 节 点 由 诸如 页 面 
的 大 小 的 参数 和 属性 的 数量 这 些 参数 来 确定 。 非 叶 节 点 可 以 存 似 CF 值 ， 并 指向 它 的 子 节 
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点 。 叶 节点 〈 集 群 ) 也 具有 多 个 条 目 ， 每 个 条 目 表 示 扫 描 向 量 的 数量 。 基 于 CF 树 的 聚 类 
的 步 又 如 图 14. 1 所 示 。 


| | i 

— on te ERE CE CF 
D @ 压 缩 为 更 小 的 CF 树 ! ] 
(可 选 ) 下 


@ 执行 全 局 聚 类 


@ TERA ATE) 


图 14.1 BIRCH 


(2) CURE 

CURE 于 在 使 用 代表 性 对 象形 成 非 球形 聚 类 ( 见 图 14.2)。 基 于 随机 采样 ，CURE 对 
于 算法 具有 较 强 的 可 扩展 性 。CURE 通过 随机 采样 确定 样本 数据 的 大 小 以 便 从 每 个 集群 中 
获得 至 少 一 定数 量 的 对 象 。 

(算法 ) 

1. 从 WN 个 数据 中 抽取 随机 样本 ，; 

2. 根据 随机 样本 中 制作 分 区 ; 

3. 将 每 个 分 区 聚集 在 WPR 代表 点 周围 ，N/R 子 集群 可 以 得 到 一 个 结果 ; 其 中 , R 是 
期 望 的 分 区 数据 缩减 值 ; 

4. 将 层次 化 聚集 聚 类 应 用 于 从 底部 到 所 需 数量 的 集群 (例如 ， 两 个 由 图 14. 2a 中 的 虚 
线 连接 的 集群 ) ; 

5. 用 最 近 的 集群 的 标签 标记 每 条 剩余 数据 。 


14.2.2 基于 密度 的 聚 类 


在 本 节 中 ， 基 于 空间 概念 ， 我 们 将 会 在 聚 类 算法 中 引入 物理 类 比 的 密度 。 基 于 密度 的 
聚 类 可 以 分 为 基于 质心 的 方法 和 基于 网 格 的 方法 。 基 于 低 维 空间 的 数据 划分 方法 打开 了 通 
过 并 行 处 理 改进 扩展 性 的 大 门 。 

(1) 基于 质心 的 方法 

DBSCAN [Ester et al. 1996] 是 一 种 基于 传统 密度 概念 的 方法 。DBSCAN 算法 通过 基于 
集群 的 质心 的 密度 执行 聚 类 ， 设 MinP 和 e 分 别 为 集群 中 对 象 的 最 小 数量 和 集群 的 半径 。 
DBSCAN 可 以 在 密度 相连 的 最 大 范围 内 聚集 空间 中 任意 形状 的 对 象 。 

(定义 ) 密度 相连 

© 以 对 象 为 中 心 、e 为 半径 的 范围 称 为 = 邻 域 。 

。 如 果 一 个 对 象 的 s 领域 中 至 少 包含 MinP (W, ABR) 个 对 象 ， 则 称 该 对 象 为 


义 


b) 


Al 14.2 CURE 


核心 对 象 。 

。 位 于 核心 对 象 的 e 邻 域内 ， 但 又 不 是 核心 对 象 本 身 的 对 象 称 为 边界 对 象 。 

© 既 不 是 核心 对 象 也 不 是 边界 对 象 的 对 象 称 为 噪声 对 象 。 

© 如 果 对 象 p EMR q We 邻 域 中 ， 则 称 p HT WOR q 出 发 直接 密度 可 达 (directly 
density — reachable) 。 

。 在 序列 jpip,…p,| P, WR p, AWM (p, =¢ Mp, =p) 出 发 直接 密度 可 达 ， 
则 称 p 可 从 对 象 g 出 发 间接 密度 可 达 。 

。 如 果 p 和 g 是 从 男 一 个 对 象 密度 可 达 的 ， 则 称 g 和 pp 是 密度 相连 的 。 

DBSCAN 算法 根据 上 述 描述 进行 聚 类 的 步 又 如 下 : 

(算法 ) DBSCAN 

1. 将 对 象 分 为 核心 对 象 、 边 界 对 象 或 噪声 对 象 。 

2. 移 除 噪声 对 象 。 

3. 使 用 边缘 将 各 自 e 邻 域 中 的 核心 对 象 连接 起 来 。 


164 社交 大 数据 挖掘 


4. 将 连接 的 核心 对 象 分 组 到 一 个 单独 的 集群 中 。 

5. 将 边界 对 象 分 配给 与 其 相关 联 的 核心 对 象 所 在 的 集群 。 

密度 的 可 达 性 构成 了 直接 密度 的 传递 可 达 性 。 因 此 ， 集 群 是 彼此 密度 相连 的 对 象 的 最 
大 集合 。 例 如 ， 令 圆 的 半径 和 MinP 分 别 为 a 和 3, 则 已 和 P 是 核心 对 象 ， 忆 是 边界 对 象 
( 见 图 14.3)。P; 可 以 通过 P, MA P AEK, KE P,、P, 和 P, 是 密度 相连 接 的 ( 见 
图 14.3a)。 类 似 地 ，0、Q 和 民 也 都 是 密度 相连 的 ， 所 有 这 些 对 象 将 属于 同一 个 集群 ( 见 
图 14. 3b) 。 但 是 并 不 包括 聚 类 对 象 中 的 噪声 对 象 ( 即 ， 异 常 值 ) ， 因 此 噪声 对 象 在 该 算法 
中 是 被 删除 的 。 

WR N 是 对 象 的 数量 ， 那 么 DBSCAN 算法 的 时 间 复 杂 度 主要 取决 于 N (GER e 邻 域 
中 的 点 所 需 的 时 间 ) 。 在 最 坏 的 情况 下 复杂 度 为 O(N’), ， 但 是 使 用 诸如 RB, kd 树 等 分 
层 索 引 的 话 ， 在 低 维 空间 中 可 以 将 复杂 度 降低 到 0( NlogN) 。 


a) b) 


K| 14.3 DBSCAN 


与 -均值 不 同 ，DBSCAN 可 以 在 噪声 对 象 相对 强 的 情况 下 找到 具有 所 需 形 状 和 大 小 
的 集群 。 而 且 ， 集 群 的 数量 是 自动 确定 的 。 当 然 DBSCAN 也 存在 问题 ; 在 高 维 情况 下 它 很 
难 定义 密度 的 意义 ， 而 且 在 集群 具有 不 均匀 的 密度 的 情况 下 它 表现 得 也 不 是 很 好 。 

综 上 所 述 ，DBSCAN 适合 于 根据 地 图 上 的 位 置信 息 聚 类 一 组 图 片 。 

(2) 基于 网 格 的 聚 类 

让 我 们 考虑 具有 单个 属性 的 每 个 维度 所 对 应 的 多 维 空间 。 假 设 每 个 维度 由 一 系列 相 邻 
间隔 组 成 。 该 算法 所 要 聚 类 的 一 组 点 被 包含 在 网 格 单元 中 ,或 者 是 简单 的 多 维度 间隔 所 包 
围 的 单元 中 。 假 设 所 有 相关 联 的 诸如 包含 在 空间 中 的 数据 和 单元 被 聚 类 。 

间隔 的 宽度 通常 通过 执行 合并 来 确定 ， 其 用 于 连续 值 的 离散 化 。 因 此 ， 在 每 个 维度 间 
隔 中 都 会 具有 诸如 恒定 宽度 和 常数 的 属性 频率 ， 需 要 根据 使 用 它们 的 方法 进行 聚 类 。 

DENCLUE [ Hinneburg et al. 1998] 描述 了 基于 网 格 概念 的 聚 类 算法 。 (DENsity CLUs- 
tEring， 密 度 函 数 聚 类 ) 将 一 组 点 的 密度 函数 模型 化 为 每 个 点 的 影响 函数 ， 围 绕 点 收集 高 


密度 的 数据 。 这 种 方法 通常 使 用 以 下 影响 函数 (Influence function) ， 它 是 表示 在 点 x 上 
I 影响 的 对 称 函数 。 


© fogla, y) = e7 te 
其 中 , D 是 x 和 ;之 间 的 距离 ;，o 是 控制 衰减 影响 的 参数 。 

点 的 密度 函数 是 所 有 其 他 点 的 影响 函数 的 和 。 一 般 地 ， 密 度 函 数 的 点 集 具 有 局 部 峰 
值 ， 称 为 局 部 密度 吸引 点 。 

算法 的 概要 如 下 。 

WHA, Wet (hill - climbing) 的 方法 [ Russell et al. 2003] 找到 局 部 
密度 吸引 点 ， 并 将 点 关联 分 配给 找到 的 局 部 密度 吸引 点 ， 从 而 形成 集群 。 与 局 部 密度 吸引 
点 相关 联 的 点 ， 如 果 其 峰值 低 于 规定 的 阀 值 上 就 作为 噪声 对 象 剔 除 掉 。 连 接 两 个 峰值 的 所 
有 点 的 密度 如 图 14. 4 所 示 ， 实 线 是 高 于 或 等 于 的 集群 相关 峰值 的 聚 类 。 

因为 一 个 点 的 密度 是 所 有 其 他 点 的 密度 的 总 和 ， 所 以 计算 成 本 基本 上 变 为 0( 和 Y), 其 
中 ，N 为 数据 点 数 。 因 此 ，DENCLUE 为 了 解决 这 个 问题 ， 将 包含 所 有 数据 点 的 区 域 划 分 
为 单元 网 格 ， 不 考虑 不 含 点 的 单元 格 ， 单 元 格 和 相关 信息 通过 使 用 树 结构 索引 来 访问 。 为 
了 计算 点 的 密度 ， 并 找到 最 接近 点 的 局 部 密度 吸引 点 ， 只 能 使 单元 格 包含 可 以 与 前 一 单元 
连接 的 点 和 单元 。 虽 然 这 种 算法 会 降低 对 密度 估计 的 准确 性 ， 但 是 却 可 以 大 幅 减 少 计 算 
成 本 。 


4114.4 DENCLUE 


由 于 DENCLUE 是 基于 密度 函数 的 ， 所 以 它 可 以 比 DBSCAN 做 出 更 准确 和 灵敏 的 密度 
计算 。 同 时 ， 它 也 和 其 他 方法 一 样 存在 缺陷 ，DENCLUE 在 一 些 类 似 于 密度 不 均匀 和 高 维 
数据 的 情况 下 表现 不 佳 ， 而 且 ， 参 数 o ME 可 能 会 极 大 地 影响 到 最 终 的 集群 。 


14.2.3 图 聚 类 


首先 ， 让 数据 与 数据 间 的 邻接 关系 分 别 作为 图 的 节点 和 带 权 重 的 边 。 以 下 将 介绍 基于 
图 的 聚 类 方法 一 一 Chameleon。 

Chameleon [Karypis et al. 1999] 是 一 种 分 层 的 图 聚 类 方法 。 如 果 两 个 节点 中 的 一 个 在 
个 邻近 节点 之 中 ， 则 将 这 两 个 节点 连接 之 后 所 得 到 的 边 的 权重 表示 这 两 个 节点 之 间 的 相 
似 度 。 这 样 构造 的 图 是 称 为 -最 近邻 图 。 图 14.5b ~d 中 的 图 分 别 为 图 14.5a 的 1 -最 近 
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AN 


A] 14.5 Chameleon 


下 面 将 描述 Chameleon 算法 的 概要 。 

(算法 ) Chameleon 

1. 基于 -最 近邻 居 构 造 -最 近邻 图 的 所 有 数据 。 

2. EAP MR DF ake BB FA (M, 集群 ) 。 
3. 重复 以 上 步 又 ， 直 到 没有 要 合并 的 集群 为 止 | / BERK. 


4. 选择 并 合并 集群 ， 该 集群 的 自 相 似 度 是 由 相对 紧密 度 (Relative Closeness, RC) 和 


相对 互 连 度 (Relative Interconnectivity RI) 的 组 合 确定 的 ， 最 后 将 最 好 


的 集群 保留 下 来 。| 


这 里 将 使 用 RC 和 RI (将 在 下 面 定义 ) 测量 集群 的 自 相似 性 ， 即 要 合并 的 集群 和 集群 


之 间 的 相似 性 。 
(定义 ) 相对 紧密 度 (RC) 


e RC = S(C,, C;) 


m. 
J 


"i ge s(C 
mG) + ) 


m: +m, 
t J 


其 中 , 由 和 半分 别 是 聚 类 C, 和 C 的 大 小 ; SCC, C) 是 连接 C, 和 C 的 边 的 权重 的 平均 值 


( 即 , 天 -最 近邻 ); S(C,) EC, 被 划分 为 两 个 集群 的 情况 下 边 的 权 习 
同上 。 
(定义 ) 相对 互 连 度 (RI) 


EMPII; SCC) 


BEC) 
F[E(C) + ECC) ] 


其 中 ,，E(C,,C,) 是 连接 CA CANARE (B, 大 -最 近邻 ) ;有 (C;) 是 在 C, 被 划分 
为 两 个 集群 的 情况 下 边 的 权重 的 和 ，E(C ) 同 上 。 

作为 自 相似 的 集群 的 组 合 ， 有 “RC( C,,C,)"* RICC,C)”。 其 中 ，a 是 用 户 指定 的 参 
数 ， 通 常 大 于 1。 

一 最 近邻 图 可 以 以 0 (NlogN) 的 成 本 计算 成 本 来 构建 。 为 了 将 图 形 分 成 两 个 ，Cha- 
meleon 使 用 了 称 为 hMETIS 的 程序 ， 令 其 计算 成 本 为 0(N) ， 假 设 N 是 数据 点 的 数量 ， 则 
需要 0( Nlog( MP) ) 的 成 本 以 分 割 成 尸 个 图 形 。 分 层 聚 类 可 以 以 O(N’ log) 的 计算 成 本 来 
运算 ， 需 要 平分 成 (P-i) 个 子 群 ， 那么 在 聚 类 的 迭代 中 ,计算 第 i 个 的 相似 度 需要 0 
(PN) 的 成 本 。 所 以 总 计算 成 本 是 O( PN + NlogN + N logN)。 

由 于 使 用 有 -最 近邻 ，Chameleon 对 于 异常 值 和 噪声 对 象 存在 的 处 理 是 相对 和 鲁 棒 的 。 但 
是 Chameleon 由 分 区 创建 的 点 集 对 应 于 集群 , 因此 ， 它 也 有 一 个 缺陷 ,， 那 就 是 如 果 分 区 本 
身 是 错误 的 ， 那 么 结果 就 一 定 是 错误 的 。 


14.3 分 类 和 其 他 任务 的 可 扩展 性 


分 类 算法 基本 都 是 假定 整个 训练 集 是 包括 在 内 存 中 的 ， 这 样 就 会 带 来 一 个 问题 ， 如 果 
训练 集 变 得 非常 大 ， 那 么 存储 器 的 性 能 可 能 就 会 出 现 问题 。 另 一 方面 ， 类 似 于 关联 规则 控 
据 ， 分 类 算法 可 以 通过 训练 集 的 采样 或 分 割 来 构造 分 类 器 ,但 是 这 种 方法 的 问题 在 于 无 法 
同时 达到 所 有 数据 计算 所 使 用 的 精度 。 

为 了 设计 特殊 的 数据 结构 ， 一 种 用 于 产生 决策 树 的 算法 的 可 扩展 性 的 方法 应 运 而 生 。 
这 个 系统 在 SLIQ [Mehta et al. 1996 ] 、SPRINT [Shafer et al. 1996 ] RainForest [ Gehrke et 
al. 1998] 和 Boat [ Gehrke et al. 1999] 以 及 后 来 的 改进 版 本 中 都 有 所 扩展 。 

SLIQ 只 有 内 存 数据 中 的 部 分 信息 。 首 先 ， 每 个 记录 被 赋予 标识 符 ( RID)。 每 个 记录 
由 单独 的 表 表 示 ， 称 为 属性 列表 ， 它 们 对 应 于 属性 ( 见 图 14.6) ， 每 个 属性 列表 又 可 以 由 
RID 和 对 应 的 属性 值 组 成 ， 属 性 列表 按 属性 值 排序 。 此 外 ， 由 RD 和 类 名 组 成 的 表 称 为 类 
列表 。 基 于 上 面 的 数据 结构 ， 以 RD 作为 索引 键 ， 类 名 和 记录 的 属性 值 就 可 以 被 访问 了 。 
一 般 地 ， 属 性 列表 存储 在 磁盘 上 ， 而 类 列表 驻 留 在 内 存 中 。 大 量 一 次 性 使 用 的 存储 器 与 类 
列表 的 大 小 成 比例 ( 即 ， 训 练 集 的 大 小 ) 。 


e RI = 


图 14.6 SLIQ 
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在 SPRINT, RainForest 和 Boat 中 ， 通 常会 
性 值 、 类 名 ) 的 方式 来 表示 一 条 记录 。 每 个 属 1 
的 表 则 是 根据 数据 分 区 时 所 保留 的 记录 被 分 布 在 合适 的 位 置 上 。 SPRINT 的 实例 如 图 14.7 


| ve [2 


Pane [me e 


个 属性 提供 一 个 列表 (包含 RID、 属 
和 列表 也 会 按照 属性 值 来 排序 。 而 属性 列表 


Ea rr [| 


另 一 种 分 类 可 扩展 性 的 方法 是 并 行 化 。 将 多 个 单独 的 分 类 器 构建 成 一 
器 集成 运行 ， 它 适用 于 以 并 行 方式 执行 分 类 而 不 用 考虑 分 类 央 类 
个 分 类 器 〈 例 如 ， 决策 树 ) 进行 并 行 地 集成 运行 是 可 以 实现 的 。SVM ， 
cade 方法 进行 平行 化 [ Graf et al. 2004] 。 
运行 的 分 布 式 计算 [Bhaduri et al. 2008a] 和 多 变量 分 析 [Bhaduri et al. 2008b | 。 
图 通过 使 用 多 核 计算 机 执行 并 行 处 理 进 行 数据 挖掘 任务 ， 例 如 朴素 贝 叶 


al. 2006 ] 。 


短 方 法 也 被 经 常用 于 Web 结构 挖掘 的 可 扩展 性 中 。 为 了 计算 PageRank， 常 使 用 增 


图 14.7 SPRINT 


还 有 类 似 的 尝 


试 ， 例 如 基于 P2P 


Ei 


B 


个 高 精度 的 分 类 
型 的 任务 。 经 研究 ， 对 单 
已 经 尝试 通过 Cas- 
环境 用 于 决策 树 
也 有 人 试 
斯 方法 [Chu et 


法 [Desikan et al. 2005] 。 首 先 ， 此 方法 计算 所 有 页 面 的 PageRanks 一 次 ， 然 后 仅 对 相对 于 


链接 结构 受到 影响 的 页 面 以 前 的 页 面 重新 计算 
面 获得 结果 。 还 有 一 种 方法 [ Gleich et al. 2004] 通 
ee E tae 


[ Avrachenkov et al. 2007 | 。 


14.4 ”异常 值 检 测 


为 了 实现 大 数据 处 理 的 可 扩展 
发 现 那些 发 生得 不 是 那么 频繁 的 现象 。 例 如 ， 


日 矩 阵 以 便 并 行 计算 排名 。 


再 结合 PageRanks 集成 的 剩余 页 
第 三 种 


子 的 粒子 碰撞 理论 的 发 现 ， 就 必须 对 所 有 实验 结果 进行 详尽 的 分 析 才 能 得 出 结论 。 


一 般 来 说 ， 
值 检测 的 应 用 包括 以 下 : 
e 检测 欺诈 
° 检测 系统 入 侵 
。 预测 异常 现象 


。 检测 公共 健康 领域 中 接种 疫苗 的 副作用 
。 药物 在 药物 中 的 副作用 的 检测 


异常 值 检测 是 从 许多 对 象 中 检测 


上 具有 与 其 他 对 象 的 值 不 同 的 对 象 。 


征 [向 下 


斯 玻 


all 


经 常 进行 随机 采样 。 但 是 随机 采样 并 不 适用 于 
在 10 万 亿 次 中 才 会 产生 一 次 的 希 格 


色 


[一 


异常 值 检 测 的 典型 方法 包括 以 下 : 

。 基于 模型 的 方法 

。 基于 邻近 度 的 方法 

。 基于 密度 的 方法 

。 基于 聚 类 的 方法 

首先 ， 什 么 是 异常 值 ? 根据 D. M. 霍金 斯 [Hawkins 1980] 的 理论 ， 异 常 值 的 定义 
uF: 

(定义 ) 霍金 斯 的 异常 值 

异常 值 是 与 其 他 观察 数据 非常 不 同 的 数据 ， 就 好 像 它们 是 由 那些 与 通常 机 制 完全 不 同 
的 机 制造 成 的 。 

然而 ， 这 个 抽象 的 定义 没有 告诉 我 们 如 何 发 现 异常 值 。 下面 提 到 的 这 几 种 方法 则 对 异 
常 给 出 了 恰当 的 定义 ， 让 我 们 逐个 考察 下 面 的 方法 。 

(1) 基于 模型 的 方法 

基于 统计 模型 的 方法 是 假设 异常 值 是 在 概率 分 布 中 具有 低 概率 的 对 象 。 例 如 ， 如 果 对 
象 服从 正 态 分 布 ， 则 与 平均 值 的 距离 超过 阔 值 的 对 象 就 可 以 被 视 为 异常 值 。 

(2) 基于 邻近 度 的 方法 

这 种 方法 通过 它们 到 下- 最 近邻 的 距离 来 确定 异常 值 。 例 如 , k- 最 近邻 的 最 小 半径 被 
视 为 对 象 的 异常 程度 。 所 以 ， 对 象 的 最 小 半径 越 大 ， 则 对 象 是 一 个 异常 值 的 程度 也 会 
越 高 。 

(3) 基于 密度 的 方法 

此 方法 通过 对 物体 周围 的 密度 取 倒 数 来 得 到 一 个 值 ， 以 确定 对 象 是 否 是 异常 值 。 异 常 
的 程度 越 高 ， 该 值 就 越 大 。 例 如 ， 作 为 数据 的 密度 ， 在 特定 距离 内 的 对 象 的 数量 和 距离 的 
平均 值 的 倒数 必须 在 对 象 和 -最 近邻 之 间 。 

(4) 基于 聚 类 的 方法 

如 果 对 象 不 属于 任何 集群 ， 则 可 以 用 此 方法 确定 异常 值 , 例如 ， 在 分 层 聚 类 中 ， 如 果 
一 个 对 象 从 它 所 属 的 集群 的 质心 到 另 一 个 质心 的 距离 大 于 阔 值 ， 则 被 认为 是 异常 值 。 在 某 
些 情况 下 ， 当 对 象 属于 小 规模 集群 时 也 可 以 简单 地 被 视 为 异常 值 。 
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附录 A 在 大 数据 时 代数 据 科 学 家 所 需 的 能 力 和 专业 知识 


数据 分 析 员 也 称 数据 科学 家 。 在 大 数据 时 代 ， 数 据 科学 家 们 的 需求 量 越 来 越 大 。 在 这 
一 部 分 的 结尾 ， 将 总 结 大 数据 科学 家 所 需 的 能 力 和 专业 知识 。 它 们 至 少 包 括 以 下 项 目 。 
(请 注意 ， 本 书 会 在 相应 音节 中 详 述 相关 的 主题 ) 。 


可 以 验证 假设 


能 恰当 地 将 数据 


了 解 可 扩展 性 


。 能 与 客户 沟通 


可 以 构建 一 个 假设 


和 知识 表示 出 来 


a 


了 解 并 遵守 与 隐私 和 安全 有 关 的 道德 和 法 得 
可 以 使 用 安全 系统 


可 以 挖掘 社交 数据 以 及 通用 Web 数据 
能 处 理 自然 语言 信息 


能 恰当 地 将 数据 和 结果 进行 可 视 化 
可 以 使 用 GIS 〈 地 理 信 息 系统 ) 
了 解 各 种 各 样 的 应 用 


Tor 


根据 上 述 条 目的 顺序 ， 我 们 将 做 出 补充 说 明 。 

引用 数据 密集 型 科学 的 成 功 例 子 ， 希 格 斯 玻 色 子 的 发 现 就 是 通过 假设 大 量 的 经 过 独立 
分 析 的 实验 数据 而 得 到 的 ， 假 设 的 作用 在 大 数据 时 代 从 未 如 此 重要 过 。 正 如 多 次 提 到 的 ， 
在 构建 分 析 假 设 前 必须 适当 收集 数据 ， 适 当选 择 已 收集 的 数据 ， 并 适当 采用 确定 假设 作为 


TI 


DIAR, AAA 


时 有 助 于 假设 构 人 


EE， 有 关 这 种 技术 的 适用 知识 是 必 不 可 少 的 。 为 了 


使 作为 分 析 结 果 的 假设 被 广泛 接受 ， 它 们 必须 具有 一 定 的 数量 分 析 。 所 以 关于 统计 和 多 变 


量 分 析 的 知识 也 是 必须 了 解 的 。 


一 般 来 说 ， 没 有 明确 语义 的 物理 现实 世界 的 数据 和 有 明确 语义 的 社交 数据 一 起 构成 了 
大 数据 。 这 两 种 数据 的 综合 分 析 在 大 多 数 大 数据 应 用 中 越 来 越 有 必要 。 由 于 社交 数据 基本 
上 是 在 网 络 上 ， 因 此 ， 应 用 Web 挖掘 的 知识 是 必要 的 。 此 外 ， 由 于 社交 数据 通常 是 以 自 


然 语言 进行 描述 的 ， 所 以 


取 的 。 


用 于 分 析 社交 数据 的 自然 语言 处 理 的 知识 ， 特 别 是 文本 挖掘 是 可 


由 于 从 假设 或 对 应 于 它们 的 中 间 数 据 构 造 的 知识 表示 ， 明 显 地 决定 了 后 续 任 务 是 否 能 
被 计算 机 平滑 处 理 ， 所 以 强烈 期 望 有 适当 的 数据 表示 。 因 此 ， 有 关 数 据 和 知识 表示 的 实用 
知识 是 必要 的 。 同 样 地 ， 需 要 分 析 的 中 间 和 最 终结 果 也 应 该 是 可 理解 的 ， 这 样 才 能 使 数据 
科学 家 和 领域 专家 进行 总 结 。 分 析 总 结 的 适当 可 视 化 使 他 们 能 够 理解 构造 的 假设 ， 发 现 新 
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的 见解 ， 并 构建 进一步 的 假设 。 关 于 可 视 化 工具 的 应 用 知识 也 是 人 们 所 期 望 的 。 

现在 ,许多 应 用 都 会 将 地 理 和 时 间 信 息 添加 到 所 收集 的 数据 中 。 在 这 种 情况 下 ， 基 于 
映射 的 地 理 信息 系统 (GIS) 可 以 用 作 可 视 化 平台 。 特 别 是 ， 富 士 山 成 为 世界 文化 遗产 ， 
东京 成 为 2020 年 夏季 奥运 会 的 举办 地 ， 这 些 都 将 推动 日 本 的 旅游 部 门 开 发 与 GIS 相关 的 
大 数据 应 用 。 在 这 种 情况 下 ， 关 于 GIS 的 应 用 知识 ， 也 意识 到 时 间 信 息 是 有 帮助 的 。 数 据 
科学 家 应 该 对 各 种 各 样 的 应 用 领域 和 涉及 这 些 领域 的 人 物 感 兴趣 或 有 所 了 解 。 

如 果 可 以 以 某 种 方式 〈 如 纵向 扩展 和 横向 扩展 ) 提供 更 多 的 处 理 能 力 ， 可 扩展 的 系 
统 或 工具 就 可 以 处 理 大 量 的 实际 数据 。 数 据 科 学 家 必须 能 够 判断 可 用 的 系统 或 工具 是 否 是 
可 扩展 的 。 特 别 是 ， 期 望 拥有 关于 并 行 和 分 布 式 计算 这 些 横向 扩展 方面 的 知识 ， 这 是 目前 
主流 的 Web 服务 技术 。 

不 限于 社交 数据 ， 个 人 生成 的 数据 也 是 只 有 本 人 认可 才能 被 使 用 。 这 样 是 为 了 保护 用 
户 的 隐私 ， 服 务 提 供 商 和 用 户 都 需要 尊重 相关 伦理 和 政策 ， 并 遵守 相关 法 律 法 规 。 然 而 ， 
也 确实 存在 一 些 人 忽视 它们 并 犯罪 。 所 以 有 必要 知道 用 于 保护 数据 和 系统 以 及 用 户 隐私 免 
受 此 类 危害 的 安全 机 制 。 

最 后 这 项 同样 非常 重要 ， 沟 通 能 力 ， 我 们 需要 通过 沟通 从 不 同 领域 的 专家 那里 提取 精 
华 和 经 验 知识 ,根据 这 些 知识 构建 假设 ,然后 通过 沟通 将 假设 和 结果 分 析 曾 述 给 各 个 领域 
的 专家 。 

读者 已 经 注意 到 了 ， 单 个 的 数据 科学 家 很 难 拥有 以 上 所 有 高 水 平 的 能 力 。 换 句 话 说 ， 
不 需要 有 一 个 超级 数据 科学 家 ,但 必须 有 一 个 有 能 力 的 团队 负责 大 数据 的 分 析 与 利用 。 因 
此 ,构建 大 数据 应 用 ， 旨 在 发 现 集体 知识 和 智慧 ， 需 要 一 个 团队 成 员 间 的 多 样 性 和 协 
同性 。 

一 般 来 说 ， 很 少 有 人 能 够 提前 拥有 足够 的 信息 和 知识 。 因 此 ， 如 果 还 有 一 个 能 力 需要 
添加 到 上 面 的 列表 中 ， 那 就 是 丰富 的 想象 力 。 


附录 B 关于 结构 、 内 容 和 访问 日 志 挖掘 技术 之 间 关 系 的 备注 


到 目前 为 止 ， 结 构 挖 据 、 内 容 挖掘 和 访问 日 志 控 掘 技术 已 被 描述 为 单独 的 技术 ， 无 论 
它们 各 自 针 对 的 是 Web 数据 、XML 数据 和 社交 数据 。 然 而 ， 它 们 之 间 是 相互 联系 的 。 

不 用 说 ,诸如 关联 分 析 、 聚 类 分 析 和 分 类 等 的 基本 挖 据 技术 可 以 应 用 于 结构 的 、 内 容 
的 和 访问 日 志 挖 握 中 的 任何 一 种 。 如 前 所 述 ， 如 果 将 访问 日 志 数 据 表示 为 树 结构 ， 则 访问 
日 志 挖 据 中 的 问题 就 可 以 转换 为 结构 挖掘 中 的 问题 。 

下 面 ， 将 从 这 个 角度 对 内 容 挖掘 和 结构 挖掘 进行 具体 的 探讨 。 

分 析 推 文 内 容 的 第 一 步 是 找到 频繁 项 和 频繁 共 引 项 。 第 二 步 是 分 别 将 术语 和 术语 间 共 
引 关 系 与 图 形 的 节点 和 节点 之 间 的 边 对 应 起 来 。 请 注意 ， 由 于 实际 原因 ， 通 常 只 有 频率 高 
于 指定 阐 值 的 术语 和 共 引 才能 包括 在 图 形 元 素 中 。 下 一 步 是 找到 对 应 于 具有 高 中 心性 的 市 
点 的 术语 ， 例 如 中 间 中 心性 ， 其 定义 如 下 。 

(定义 ) 中 间 中 心性 

节点 的 中 间 中 心性 是 通过 节点 的 其 他 两 个 节点 之 间 的 最 短路 径 的 总 数 除 以 这 两 个 节点 
之 间 的 所 有 最 短路 径 的 总 数 。 
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其 他 中 心包 括 基于 节点 的 度数 中 心性 和 基于 节点 和 每 个 其 他 节点 之 间 的 所 有 最 短 距离 
之 和 的 倒数 的 接近 中 心性 。 无 论 如 何 ， 上述 方 法 可 以 被 认为 是 将 内 容 挖 据 中 的 问题 转换 成 
结构 挖掘 中 的 问题 的 解决 方案 。 

例如 ， 借 助 于 伪 相 关 ， 要 找到 在 特定 时 段 从 特定 站 乘坐 的 乘客 数量 ( 即 物 理 真实 世界 
数据 ) 快速 增加 的 原因 ， 可 以 通过 过 滤 一 组 该 时 段 在 该 站 点 附近 发 布 的 一 组 推 文 〈 即 社 
交 数 据 ) ， 并 且 关 注 该 组 推 文中 对 应 于 具有 上 述 如 此 高 中 心性 的 节点 的 术语 。 
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